您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 自动分词 >

一种基于地址分词的自动地理编码算法

发布时间:2019-08-04 04:15 来源:未知 编辑:admin

  2011 年 2 期 第 马照亭 ,等 : 一种基于地址分词的自动地理编码算法 59 的不断成熟 ,越来越多的政府部门 、 公司 、 企事业单 位基于地理信息构建本单位的业务应用 。一些传 统上似乎与地理信息系统关联性较弱的部门或单 位 ,如工商 、 、 税务 药监 、 传媒等 , 也纷纷提出了借助 地理信息管理本部门信息的要求 。但是这些部门 或单位的专题信息采集时并不直接具备空间坐标 , 只是具有文字描述的地名 /地址信息 。只有将这些 地名 /地址转换成空间坐标 , 专题部门才能将专题 数据与地理信息叠加 , 才能利用 GIS软件的可视化 和空间分析功能辅助本部门应用 。这种将地名 /地 址信息映射成空间坐标的过程就是地理编码 [1] 地理编码技术应用最早 、 最广泛的国家 。 20 世纪 70 年代美国就建立了全国的地理编码标准 , 并开发了 通用的地理编码软件工具 , 20 世纪 90 年代后开始 成功地应用于与人口数据相关的全国人口地址编 码系统 ( TIGER系统 ) , 在历次全国人口普查统计中 发挥了巨大作用 [2] 具有 地 理 编 码 模 块 , 如 M ap Info 的 M apM arker 和 A rcGIS的 GeoCoding等 , 实现了基本的地址编码框 架和匹配引擎 。由于国情不同 , 我国的地名 /地址 体系异常复杂 ,其管理缺少统一的标准和有效的服 收稿日期 : 2010 2 2 05 17 作者简介 : 马照亭 ( 1976 —) ,男 ,河南睢县人 ,助理研究员 ,主要研究方向为数字城市 、 应用和三维 GIS。 GIS 文章编号 : 0494 2 0911 ( 2011 ) 02 2 0059 2 04 1 中图分类号 : P208 文献标识码 : B 一种基于地址分词的自动地理编码算法 马照亭 ,李志刚 ,孙 ,印 伟 洁 2 1 1 ( 1. 中国测绘科学研究院 ,北京 100830; 2. 嘉兴市规划 (测绘 )管理局 ,浙江 嘉兴 314000 ) An Automa tic Geocod in g A lgor ithm Ba sed on Address Segm en ta tion MA Zhaoting, L I Zhigang, SUN W ei , YIN J ie 摘要 : 针对我国多数城市地名 /地址表述的不规范性 ,基于可伸缩地址模型提出地理编码数据库的构建方案 , 设计一种基于地址 分词的自动地理编码算法 。首先根据地理编码库编制地址词典 , 利用地址词典对地名 /地址进行地址分词 , 形成地址要素及其级 别 ; 然后再对地址要素及其级别组合形成查询条件到地理编码库中进行匹配 ; 最后分析影响这种地理编码算法精准度的因素 , 并 提出相应的改进措施 。实践证明 ,该算法匹配准确率高 ,可以服务于我国数字城市 、 省区和国家级地理信息化建设 。 关键词 : 地址模型 ; 地理编码数据库 ; 地址词典 ; 地址分词 ; 地址匹配 ; 地理编码量化 一 引 言 、 务体系 ,导致国外的地理编码技术和软件在我国并 不适用 [3] 。 随着地理信息采集手段的不断普及和 GIS软件 近年来 ,我国在地理编码方面也作出了大量的 努力 ,不少单位在地址模型 、 地理编码标准以及地 址匹配技术方面取得了一些成果 。如李军针对北 京市地址现状 , 提出了复杂层次的地址模型 [4] ;在 地理编码标准方面 , 国家测绘局组织编制了国家标 准《 数字城市地理信息公共平台地名 /地址分类 、 描 ( GB / T 23705 —2009 ) , 提出了城市 述及编码规则 》 内部地名 /地址分类 、 规范描述及编码的规则 [5] ;在 地址匹配技术和软件方面 , 文献提及较多的是早期 北京长地计算机公司的“ 寻址神 ” 和北大方正数码 公司的“ ap Search ” M 软件 ,近期并无成熟软件问世 。 由于没有适合国内应用的地址模型 , 未能建立标准 的地理编码数据库系统 , 现有地理编码技术仍局限 于某个具体的应用系统 , 难以推广应用 [6] 。 二 研究现状 、 。有些部 发达国家对地理编码的研究较为成功 , 美国是 门在对本部门信息空间化时 , 甚至不惜重金将其逐 一在地理信息底图上人工定位 ,既耗时又费力 。 三 关键技术及实现 、 基于地址分词的自动地理编码是基于地址词 典将地名 /地址字符串切分为一组记录级别的地址 要素或标志物通名 , 然后利用切分到的一个或多个 地址要素或关键词组织成查询条件与规范的地理 编码库进行匹配 。如果匹配成功 , 返回地理编码库 中相应记录的地理坐标 ; 否则 , 根据需要 , 返回地 名 /地址所在道路 、 社区或其他行政区划的地理坐 。一些著名的国外 GIS 软件都 60 测 2011 年 2 期 绘 通 报 第 (楼 )牌号时 ,仅使用“ 道路名 (小区名 ) +门 (楼 ) 牌 标 。匹配完成后 , 再对算法的精准度进行效果量 化 。基于地址分词的自动地理编码的实现流程如 图 1 所示 。 号” 来表述一个地址 ; 当存在标志物时 , 使用“ 行政 区划 +标志物名 ” 进行表述 ; 当此表述的标志物多 于一个时 ,对行政区划的粒度进行延伸 , 直至唯一 确定此地址 。例如 , 中国测绘创新基地的地址是 “ 北京市海淀区莲花池西路 28 号中国测绘创新基 地 ”在北京市的应用中可以简化为“ , 莲花池西路 28 号” 而不会造成任何歧义 ; 再如 , 将“ 北京市石景山 区华联商厦 ” 使用“ 北京市华联商厦 ” 进行描述可能 定位到多个标志物 , 这时就需要延伸区级乃至街道 级的区划对其进行描述 。 2. 地理编码库 根据可 伸缩 地址 模型对 地名 /地址 描述 的 规 则 ,笔者在地理编码库中分别设计了地名 、 标志物 和门 (楼 )牌三个数据表分别框架地名 (行政区划 、 道路 、 小区 ) 、 标志物和门 (楼 ) 牌及其地理坐标 , 并 定义了各数据表的结构 。按库表结构依次录入全 市所有区县 、 、 、 街道 道路 小区 、 标志物 、 (楼 ) 牌的 门 (简称 、 )和地理坐标即可构建一个城市的 名称 别名 地理编码库 。地理编码库检查无误后 , 分别选取框 架地名数据表中的“ 城市名称 、 城市别称 、 区县名 称、 区县别称 、 街道办名称 、 道路名称 、 小区名称 、 小 区别称 ”标志物数据表中的“ 、 标志物名称 、 标志物 别称 ” 以及门 (楼 ) 牌数据表中的“ (楼 ) 牌 ” 门 字段 值作为地名 /地址词条 , 连同相应的地址级别记录 在地址词典中 。当地名别称作为一个词条时 , 还需 记录与本词条相对应的标准名称 , 以便在地址分词 时实现地址要素的规范化 。 3. 地址分词及标准化 借助地址词典和中文自动分词算法 , 将一串文 字描述形式的地名 /地址切分 、 转化为计算机能够 理解的 、 结构化的多个地址要素或标志物通名 (如 酒店 、 大厦等 ) , 这一过程即地址分词 , 它是实现地 址标准化的重要途径 。地址分词与中文自动分词 的不同在于词典的内容和结构 : 在内容上 , 前者需 在后者词库内容的基础上扩充《中国地名用词库 》 中的通用地名词条和一个城市中的专用地名 /地址 词条 ; 在结构上 ,地址词典需要为地址要素挂接“ 标 准名称 ” 地址级别 ” 和“ 两个属性字段 。有关中文自 动分词算法的技术细节 ,请参考文献 [ 7 ]。 表 1 是可伸缩地址模型中地址要素采用的地址 级别 。这样 ,当地址分词切分出“ 北京市 ” 西城 、 “ 区 ” 华联商厦 ” 、 “ 三个地址要素时 ,根据地址词条中 记录的级别 ,我们可以准备定位到北京市西城区的 “ 华联商厦 ”而不是北京市石景山区 的“ , 华联 商 图 1 算法实现流程 1. 地址模型 利用结构化的词组对地名 /地址进行表述和交 流即地址模型 , 它反映了一个国家或地区对于地 名 /地址描述的不同方式 。国家标准《数字城市地 理 信 息 公 共 平 台 地 名 /地 址 编 码 规 则 》( GB / T 23705 —2009 )中规定了不同粒度范围地名 /地址的 描述规则 , 可以看作是一种在层次上可伸缩的地 名 /地址模型 : 根据地名 /地址描述粒度的不同描述 规则自动伸缩 ,如图 2 所示 。 图 2 可伸缩的地名 /地址层次模型结构图 由于一个城市内的道路名和小区名是唯一的 , 因此利用“ 道路名 (小区名 ) +门 (楼 ) 牌号 ” 可以精 确定位一个地址 ,利用“ 行政区划 +标志物名 ” 一般 也可以准确定位一个地址 , 而道路名 、 小区名 、 街道 名也可以 大 致 定 位 一 个 地 址 范 围 。即 当 存 在 门 2011 年 2 期 第 马照亭 ,等 : 一种基于地址分词的自动地理编码算法 61 厦 ”也不是沈阳市西城区的“ , 华联商厦 ” 。 表 1 可伸缩地址模型中地址要素采用的地址级别 I D 1 2 3 4 5 6 7 8 9 的地址切分准确度 、 匹配准确度正相关 。在地理编 码库和地址词典相同的情况下 , 可信度只取决于匹 配准确度 。根据可伸缩地址模型 , 定义匹配准确度 的计算方法如下 M = ∑ (W i × i ) × % ( 0. 0 ≤W i ≤1. 0, M i = M 100 [ 0 失败 , 1 成功 ] ) 地址要素 省区名称 (别称 、 简称 ) 城市名称 (别称 、 简称 ) 区县名称 (简称 ) 街道名称 道路名称 小区名称 标志物名称 门 (楼 )牌号码 标志物通用词 地址级别 1 2 3 4 5 6 7 8 9 式中 , M i 为地址要素在地理编码库中的匹配准确 度 , 匹配成功时为 1, 匹配失败时为 0; W i 为各地址 要素在可伸缩地址模型中所占的权重 , 取值介于 0. 0 和 1. 0 之间 。可伸缩地址模型中各地址要素在本算 法中量化计算时的权重如表 2 所示 。 表 2 可伸缩地址模型中地址要素采用的权重值 地址分词后 ,需要对切分出来的地址要素进行 标准化处理 , 如将城市 、 区县 、 小区 、 标志物的别称 标准化为规范名称 。这一过程可通过关于地址词 典中词条的“ 标准名称 ” 属性实现 。 4. 地址匹配 I D 1 2 3 4 5 6 7 8 地址要素 城市名称 区县名称 街道名称 道路名称 小区名称 标志物名称 门 (楼 )牌号码 标志物通用词 权重值 10% 10% 10% 20% 20% 60% 将地址分词切分出的地址要素或通用词按可 伸缩地址模型恢复成计算机可以识别的地址 , 并在 地理编码库中比对出地理坐标的过程即地址匹配 。 由于切分出来的地址要素中具有可伸缩地址模型 的地址级别 ,按如下流程可以在地理编码库中进行 快速匹配 。 1 ) 切分出来的一组地址要素中含有门 (楼 ) 牌 号码时 (如果门 (楼 )牌地址要素前无道路名或小区 名地址要素 ,视同门 (楼 )牌 ) ,利用门 (楼 )牌号码可 以在门 (楼 )牌数据表中精确匹配 。 2 ) 当切分出来的一组地址要素中不含门 (楼 ) 与道路或小区一同出 现时为 80% ,否则为 0% 30% 在本算法中 ,由于地理编码库中的所有地址要 素均包含在地址词典中 , 匹配准确度完全取决于地 址分词切分的地址要素 , 取决于地址词典 (地理编 码库 )的丰富性和全面程度 。当地址词典中缺少 “ 石景山医院 ” ,匹配地址“ 时 北京市石景山医院 ” 时 只能分解出“ 北京市 ”“ 、 石景山 ”“ 、 医院 ” 三个词 条 ,只能通过模糊搜索 , 得到北京市石景山区内包 含“ 医院 ” 的所有标志物的空间坐标 , 供用户确认 。 如“ 北京市石景山区中医医院 ” 北京市石景山医 、 “ 院 ” 北京市石景山同心医院 ” 北京市石景山区 、 “ 、 “ 五里坨医院 ” 等都在结果之列 。如果在地址词典中 扩充“ 石景山医院 ” 一词 , 可以直接到“ 北京市石景 山医院 ” 的空间坐标 。可见 , 提高本算法可信度的 关键是按照可伸缩地址模型的规范不断更新与完 善地理编码库 。 、 四 试验效果 基于上述设计思想和算法 , 通过改造开源的中 文分词代码包 ,笔者开发了利用地理编码库编制地 址词典的工具 , 搭建了基于地址分词的地名 /地址 批量匹配工具 。图 3 是地名 /地址批量匹配工具的 操作界面 ,用户选择一个 Access或 Excel格式的表 牌号码 ,但包含标志物时 , 为了避免同名标志物的 出现 ,结合地址模型中的行政区划进行地址匹配 。 3 ) 当切分出来的地址要素中不含门 (楼 ) 牌号 码和标志物 , 但包含标志物通用词时 , 可以按标志 物通用词进行模糊查询 , 将满足条件的一条或多条 记录返回给用户 ,供用户交互甄别 。 4 ) 当切分出来的地址要素中不含任何门 (楼 ) 牌号码 、 标志物和标志物通用词时 , 用最高地址级 别地址要素进行匹配 , 返回道路 、 小区或行政区划 的地理坐标 。 5. 匹配结果量化 为了验证算法的有效性 , 笔者提出了可信度作 为地理编码确定性评价的量化指标 。当一个地名 / 地址经本算法能精确转换为地理坐标时可信度为 100% ,完全不能定位时为可信度为 0。从算法流程 上可以看出 ,本地理编码算法的可信度与地址分词 62 测 2011 年 2 期 绘 通 报 第 码算法 ,在深刻剖析实现所需关键技术的基础上 , 在数字城市地理信息公共平台软件 NewM ap GIS中 实现了适用于我国城市地名 /地址的地理编码功 能 。试验表明 ,本算法正确 、 有效 , 不但适应于城市 级地名 /地址的地理编码 , 而且适用于省级和国家 级地名信息向空间坐标的转换 。但是 , 由于地理编 码库中未考虑诸如地址中存在错别字 、 同音字等地 址笔误的情况 ,算法在此方面的兼容性还有待加强 。 格 ,就可以按表格中指定的地名 /地址字段进行批 量地址匹配 。对于有多个可能结果的地名 /地址 , 由用户根据返回的结果在地图窗口中予以确认 。 参考文献 : [1] 江洲 ,李琦 . 地理编码 ( Geocoding) 的应用研究 [ J ]. 地 图 3 自动地理编码批量处理工具界面 依托国家测绘局开展的数字城市地理信息公 共平台建设项目 ,分别针对多个城市不同部门的专 题数据进行地理编码试验 , 结果表明 , 匹配成功率 均在 90%以上 ,如图 4 所示 。 图 4 不同城市不同部门地理编码结果统计图 、 五 结束语 本文提出了一种基于地址分词的自动地理编 (上接第 51 页 ) [4] 苏洁 ,周东方 ,岳春生 . GPS车辆导航中的实时地图匹 [5] 孔云峰 . 一个公路视频 GIS的设计与实现 [ J ]. 公路 , [6] 吴勇 ,刘学军 ,丰江帆 . 具有定位信息的移动视频采集 2007 ( 1 ) : 119 2 121. (上接第 58 页 ) [2] 宋关福 . 服务型 GIS铺平信息共享之路 [ J ]. 计算机世 [3] 周信炎 . 信息化测绘 : 一个新的战略方向 : 访中国测绘 [4] 李德仁 , 邵振峰 . 信息化测绘的本质是服务 [ J ]. 测绘 [5] 李德仁 ,苗前军 ,邵振峰 . 信息化测绘体系的定位与框 配算法 [ J ]. 测绘学报 , 2001, 30 ( 3 ) : 252 2 256. 界 , 2008 ( 49 ) : 32 2 33. 通报 , 2008 (5) , 1 2 4. 学会理事长杨凯 [N ]. 中国测绘报 , 2006 2 2 ( 3 ) . 05 16 [ 2 ] U. S Census Bureau. TIGER ? , TIGER /L ine ? and . [3] 王凌云 、 李琦 、 . 国内地理编码数据库系统开发与 江洲 [4] 李军 ,李琦 , 毛东军 , 等 . 北京市地理编码数据库的研 [5] 国家质量监督检验检疫总局 . GB / T 23705 —2009 数字 [6] 江洲 ,李小林 ,刘碧松 . 地理信息系统地址编码技术标 [7] 刘开瑛 . 中文文本自动分词和标注 [M ]. 北京 : 商务印 [7] 任菲 ,刘学军 ,丰江帆 ,等 . 基于空间信息辅助的视频 [8] 吴勇 . 可定位影视直播系统及应用研究 [ D ]. 南京 : 南 [6] 郭秀娟 ,范晓鸥 . 基于 W eb Services的分布式 GIS体系 [7] 张锋叶 ,杨钰 , 朱美正 . 基于 W eb Services的 GIS多层 [8] 马妮 ,李维功 ,马建良 . 空间信息服务组织的应用软件 系统 [ J ]. 测绘通报 , 2009 ( 7 ) : 42 2 47. 44, 京师范大学 , 2010. 体系规划 [ J ]. 测绘通报 , 2008 (7) : 19 2 22. 1546 2 1548. 189 2 192. 分割 研 究 [ J ]. 计 算 机 应 用 研 究 , 2009, 26 ( 4 ) : 理与地理信息科学 , 2003, 19 (3) : 22 2 25. 京 : 中国标准出版社 , 2009. 书馆 , 2000. 2009 2 2 10 1. TIGER ? 2 Related Products [ EB /OL ]. 研究 [ J ]. 计算机工程与应用 , 2004 ( 21 ) : 167 2 168, 212. 究 [ J ]. 计算机工程与应用 , 2004 (2) : 1 2 6. 3, 准化研究 [ J ]. 标准化研究 , 2007 (5) : 22 2 25. 结构研究 [ J ]. 吉林地质 , 2008, 27 ( 1 ) : 90 2 92. 城市地理信息公共平台地名 /地址编码规则 [ S ]. 北 架 [ J ]. 武 汉 大 学 学 报 : 信 息 科 学 版 , 2007, 32 ( 3 ) : 体系结构研究 [ J ]. 计算机应用 , 2006, 26 ( 3 ) : 748 2 750. http: ∥

http://ihmekauppa.com/zidongfenci/338.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有