地名地址基因的网页文本地名地址提取算法被引量：4

Extraction algorithm of place name and address with text format in web pages based on the place name and address gene

导出

摘要针对网页文本蕴含着丰富的地名地址空间信息,但因其描述的随机性、多样性,导致信息很难被快速、准确地识别出来的问题。该文在分析网页文本中地名地址组成特点的基础上,考虑地名地址的事件属性,提出了一种基于"地名地址基因"的信息提取方法,依据事件相关度、地名地址的字符长度等提取因子建立提取规则树获取目标地名地址。实际数据测试表明该方法在地名地址提取上更具针对性,提高了效率和准确率。 Aiming at the problem that web text contains a wealth of address space information,but it is difficult to identify and extract because the address are described randomly and diversely.This paper presented a new method for the address extraction based on the the place name and address genes library after analyzing the characteristics of them.In this paper,a extraction rule tree was established according to event attributes,character length and word frequency of the address.The actual data tests showed that the method was more specific,and the efficiency and accuracy were improved.

作者杜中波刘新宋婷婷梁冰周新宇 DU Zhongbo;LIU Xin;SONG Tingting;LIANG Bing;ZHOU Xinyu(College of Geomatics,Shandong University of Science and Technology,Qingdao,Shandong 266590,China;Key Laboratory of Fundamental Geographic Information and Digital Technology of Shandong Province, Shandong University of Science and Technology,Qingdao,Shandong 266590,China;Chinese Academy of Surveying and Mapping, Beijing 100036, China;Urban Planning Management Information Center of Beijing Xicheng District, Beijing 100035, China)

机构地区山东科技大学测绘科学与工程学院山东科技大学山东省基础地理信息与数字化技术重点实验室中国测绘科学研究院北京市西城区规划管理信息中心

出处《测绘科学》 CSCD 北大核心 2019年第4期196-202,共7页 Science of Surveying and Mapping

基金测绘地理信息公益性行业科研专项(201512020) 中国测绘科学研究院基本科研业务费项目(7771607) 西城区科技项目(SD2015-25)

关键词地名地址基因网页信息事件属性规则树 place name and address gene web page information event attributes rule tree

分类号 P208 [天文地球—地图制图学与地理信息工程]

引文网络
相关文献

参考文献11

1孙俊,潘玉君.《众包地理知识:自愿地理信息的理论与实践》评介[J].地理学报,2013,68(11):1590-1591. 被引量：5
2王克永,刘纪平,罗安,王勇.前后缀与特征词相结合的地名地址提取[J].测绘通报,2016(2):64-68. 被引量：17
3翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
4李宏波.词典与统计相结合的中文分词算法研究[J].武汉理工大学学报（信息与管理工程版）,2010,32(6):907-909. 被引量：7
5张雪英,闾国年,李伯秋,陈文君.基于规则的中文地址要素解析方法[J].地球信息科学,2010,12(1):9-16. 被引量：73
6马学峰.湛江市地名地址数据库设计与实现[J].测绘通报,2014(S2):288-291. 被引量：9
7李丽双,黄德根,陈春荣,杨元生.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20(5):51-57. 被引量：32
8亢孟军,杜清运,王明军.地址树模型的中文地址提取方法[J].测绘学报,2015,44(1):99-107. 被引量：35
9章蔼然,葛玉婷,高晓杰,何慧敏,高宁,侯颖春.“基因”概念的发展[J].生物学通报,2014,49(5):15-18. 被引量：3
10孙存群,周顺平,杨林.基于分级地名库的中文地理编码[J].计算机应用,2010,30(7):1953-1955. 被引量：23

二级参考文献106

1徐芳.金华市城市地名数据库的设计与实现[J].科技资讯,2008,6(24). 被引量：2
2李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
3朱建伟,王泽民.地理编码原理及其本地化解决方案[J].北京测绘,2004,18(2):24-27. 被引量：17
4褚亚平.城市地名商品化与地名管理法制化[J].中国地名,1996(1):4-6. 被引量：4
5王凌云,李琦,江洲.国内地理编码数据库系统开发与研究[J].计算机工程与应用,2004,40(21):167-168. 被引量：33
6王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：15
7褚亚平.城市规划发展不能忽略地名规划[J].北京规划建设,2004(6):112-113. 被引量：8
8陈细谦,迟忠先,金妮.城市地理编码系统应用与研究[J].计算机工程,2004,30(23):50-52. 被引量：29
9张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
10邓敏,刘文宝,冯学智.GIS面目标间拓扑关系的形式化模型[J].测绘学报,2005,34(1):85-90. 被引量：35

共引文献203

1亢孟军,曹浩杰,苏世亮,翁敏,王明军.一种优化的自然语言空间查询转换模型[J].测绘科学,2022,47(7):194-200.
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3蔡华利,刘鲁,李红.基于规则推理的突发事件发生地点识别研究[J].情报学报,2011,30(2):219-224. 被引量：8
4李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
5周军,王艳红.一种基于词典的中文分词法的设计与实现[J].黑龙江科技信息,2008(25):70-70. 被引量：5
6李玉森,张雪英,袁正午.面向GIS的地理命名实体识别研究[J].重庆邮电大学学报（自然科学版）,2008,20(6):719-724. 被引量：10
7易军凯,颜婷婷.垃圾邮件的改进贝叶斯过滤算法[J].北京化工大学学报（自然科学版）,2008,35(6):93-97. 被引量：1
8孙铁利,李晓微,张妍.信息过滤中的中文自动分词技术研究[J].计算机工程与科学,2009,31(3):80-82. 被引量：7
9陈明华,殷景华,舒昌,王明江.基于正反向最大匹配分词系统的实现[J].信息技术,2009,33(6):124-127. 被引量：7
10张庆扬,柴胜.使用二级索引的中文分词词典[J].计算机工程与应用,2009,45(19):139-141. 被引量：10

同被引文献46

1季晓燕,周敏.全球基础地理底图数据库建设中对地名数据处理技术的探讨[J].测绘通报,2006(7):45-48. 被引量：10
2唐旭日,陈小荷,张雪英.中文文本的地名解析方法研究[J].武汉大学学报（信息科学版）,2010,35(8):930-935. 被引量：41
3程昌秀,于滨.一种基于规则的模糊中文地址分词匹配方法[J].地理与地理信息科学,2011,27(3):26-29. 被引量：48
4李丽双,党延忠,廖文平,黄德根,张颖.CRF与规则相结合的中文地名识别[J].大连理工大学学报,2012,52(2):285-289. 被引量：17
5余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：604
6赵阳阳,王亮,仇阿根.地址要素识别机制的地名地址分词算法[J].测绘科学,2013,38(5):74-76. 被引量：25
7应申,李威阳,贺彪,王维,万远.统计决策树下的城市地址集中文分词[J].武汉大学学报（信息科学版）,2019,44(2):302-309. 被引量：10
8邬伦,刘磊,李浩然,高勇.基于条件随机场的中文地名识别方法[J].武汉大学学报（信息科学版）,2017,42(2):150-156. 被引量：45
9沈思,朱丹浩.基于深度学习的中文地名识别研究[J].北京理工大学学报,2017,37(11):1150-1155. 被引量：18
10魏勇,李鸿飞,胡丹露,李响,马雷雷.一种基于复合特征的中文地名识别方法[J].武汉大学学报（信息科学版）,2018,43(1):17-23. 被引量：16

引证文献4

1朱鹏,石丽红,焦明连,刘晓东,孙浩.混合神经网络的中文地名识别方法[J].测绘科学,2021,46(11):159-165. 被引量：5
2卢春阳,沈雯.基于空间数据库的地名地址动态更新系统设计[J].测绘技术装备,2022,24(3):120-124.
3李亚云.多元历史空间信息挖掘与可视化表达技术研究——以上海红色地名文化为例[J].工程勘察,2024,52(1):57-61.
4黄靖华.地理空间框架地名地址数据采集技术研究[J].北京测绘,2024,38(3):277-282.

二级引证文献5

1亢孟军,曹浩杰,苏世亮,翁敏,王明军.一种优化的自然语言空间查询转换模型[J].测绘科学,2022,47(7):194-200.
2方美丽,郑莹莹,陶坤旺,赵习枝,仇阿根,陆文.基于MacBERT和对抗训练的城市内涝信息识别方法[J].集成技术,2023,12(1):56-67. 被引量：1
3夏青,石明钧.基于MacBERT的徽派古建筑修缮文本实体识别方法研究[J].电脑知识与技术,2023,19(31):44-47.
4乔璐,孙有朝,吴红兰.面向飞机故障文本的信息抽取[J].计算机与现代化,2024(3):61-66.
5朱淼,刘松林,高一品.基于BERT的机构名命名实体细粒度实体识别研究[J].软件工程与应用,2022,11(5):930-939.

1朱志辉,朱梅芳.船舶装备在线采购异常信息智能检测系统[J].舰船科学技术,2018,40(11X):178-180. 被引量：1
2杨博锦.浅谈城市建设用地遥感信息提取方法[J].通讯世界,2019,26(3):251-252.
3田银娣,王怡恺,李静,王苗苗,党双锁.焦虑和抑郁量表在肝硬化患者临床应用中的信效度评价[J].实用肝脏病杂志,2019,22(1):105-108. 被引量：278
4姜萍,赖双双,许婷婷.ZY-3卫星影像雪盖信息提取方法[J].遥感信息,2019,34(1):123-128. 被引量：1
5靳琳.山东省城市人才环境评价体系研究[J].金融经济,2019(2):137-139. 被引量：3
6杨战武,相明科.可重构置换网络配置信息快速提取仿真[J].计算机仿真,2019,36(3):389-392.
7亓兴兰,肖丰庆,刘健,张李平.基于SPOT-5影像的马尾松毛虫虫害遥感监测研究[J].中南林业科技大学学报,2019,39(4):59-65. 被引量：16
8李雪梅,孟庆慧,朱红.护士工作满意度量表的信效度分析[J].国际护理学杂志,2019,38(6):721-727. 被引量：20

测绘科学

2019年第4期

浏览历史

内容加载中请稍等...

地名地址基因的网页文本地名地址提取算法被引量：4

参考文献11

二级参考文献106

共引文献203

同被引文献46

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

地名地址基因的网页文本地名地址提取算法 被引量：4

参考文献11

二级参考文献106

共引文献203

同被引文献46

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

地名地址基因的网页文本地名地址提取算法被引量：4