基于XLNet的多数据源中文地名匹配方法

Chinese Geographical Name Matching Method with Multiple Data Sources Based on XLNet

下载PDF

导出

摘要地址作为社会发展中重要的基础性数据资源,已成为城市地理空间数据化建设的重要组成部分。地名匹配旨在比较表示相同真实世界位置的配对字符串。当前地名匹配方法依赖于字符串相似性独立或多种混合相似性度量方法,这些方法无法有效地捕捉长句子上下文信息,不能充分理解地址含义。因此,提出一种基于XLNet算法的地名匹配方法,利用深度神经网络将一对地名分类为匹配或不匹配。该方法利用长程记忆并使用双信息流注意力掩码对事件序列进行重构,以利用其双向信息建立表征。实验结果表明,该方法可解决长地址匹配问题,模型能较好地理解上下文语义信息,优于先前研究的单个相似度量及基于监督机器学习的方法。 Address,as an important fundamental data resource in social development,has become an essential component of urban geo-spatial data construction.Geographical name matching aims to compare paired strings representing the same real-world location.Current geographical name matching methods rely on either independent string similarity or a combination of multiple similarity metrics,which fail to effectively capture character substitutions involved in geographical name changes due to language and cultural variations.We proposed a geographical name matching method based on XLNet algorithm,which using a deep neural network to classify a pair of geographical name as match or non-match.The method based on long-term memory uses bidirectional information flow attention masks to reconstruct event sequences,establishing representations by using the bidirectional information of sequence.The experimental result demonstrates the effectiveness of this method in addressing the issue of lengthy address matching.The model can more comprehensively capture the semantic information conveyed within the context,which outperforms previous studies on single similarity metrics and supervised machine learning methods.

作者郑诗语邱芹军谢忠陶留锋李伟杰 ZHENG Shiyu;QIU Qinjun;XIE Zhong;TAO Liufeng;LI Weijie(School of Computer Science,China University of Geosciences(Wuhan),Wuhan 430074,China;Laboratory of National Joint Engineering for Geo-information System,Wuhan 430074,China;Key Laboratory of Urban Land Resources Monitoring and Simulation,Ministry of Natural Resources,Shenzhen 518000,China)

机构地区中国地质大学(武汉)计算机学院地理信息系统国家地方联合工程实验室自然资源部城市国土资源监测与仿真重点实验室

出处《地理空间信息》 2024年第8期59-63,88,共6页 Geospatial Information

基金国家重点研发计划资助项目(2022YFB3904200,2022YFF0711601) 湖北省自然科学基金资助项目(2022CFB640) 地质探测与评估教育部重点实验室主任基金资助项目(GLAB2023ZR01)。

关键词地名匹配地名实体 XLNet Softmax 回归模型 geographical name matching geographical name entity XLNet Softmax regression model

分类号 P281 [天文地球—地图制图学与地理信息工程]

引文网络
相关文献

参考文献5

1陶彣君,熊忠招,龚元夫,周治雄,曹永桃.基于GIS技术的地名信息采集系统设计[J].地理空间信息,2020,18(11):74-76. 被引量：5
2雷双友,王志成,龚玉叶,李云.标准地名地址数据库建设及应用[J].地理空间信息,2021,19(6):132-134. 被引量：2
3程钢,卢小平.顾及通名语义的汉语地名相似度匹配算法[J].测绘学报,2014,43(4):404-410. 被引量：35
4郝燕玲,唐文静,赵玉新,李宁.基于空间相似性的面实体匹配算法研究[J].测绘学报,2008,37(4):501-506. 被引量：107
5陈雨晖,皮洲,姜滕圣,李响,王震,奚雪峰,吴宏杰,付保川.基于知识图谱的中文地址匹配方法研究[J].计算机工程与应用,2022,58(14):306-312. 被引量：1

二级参考文献50

1陈细谦,迟忠先,昃宗亮,苏立强.地理编码在空间数据仓库ETL中的应用[J].小型微型计算机系统,2005,26(4):628-630. 被引量：11
2刘宏申,秦锋.确定轮廓形状匹配中形状描述函数的方法[J].华中科技大学学报（自然科学版）,2005,33(4):13-16. 被引量：21
3万玛宁,关永,韩相军.嵌入式数据库典型技术SQLite和Berkeley DB的研究[J].微计算机信息,2006(01Z):91-93. 被引量：60
4童小华,邓愫愫,史文中.基于概率的地图实体匹配方法[J].测绘学报,2007,36(2):210-217. 被引量：78
5HOLT A. Spatial Similarity and GIS: the Grouping of Spa tialKinds[A]. The 11th Annual Colloquium of the Spatia Information Research Gentre University of Otago [C]. Dunedin: [s.n.], 1999. 241-250. 被引量：1
6SAMAL A, SETtt S, CUETO K. A Feature based Ap proach to Conflation of Geospatial Sources [J]. Interna tional Journal of Geographical Information Science, 2004 18(5) : 459-489. 被引量：1
7WENTZ E A. Shape Analysis in GIS[A]. Proc of AC SM/ASPRS[C] [s, l.]:[s.n.], 1997. 204-213. 被引量：1
8FOLEY H. A Multiple Criteria Based Approach to Per forming Contlation in Geographical Information Systems [D]. New Orleans: Tulane University, 1997. 被引量：1
9BELONGIE S, MALIK J. Shape Matching and Object Recognition Using Shape Contcxts[J]. IEEE Transactions on Pattern Analysis and machine Intelligence, 2002, 24 (24): 509-521. 被引量：1
10BERRI C, KANZA Y, SAFRA E, SAGIV Y. Object Fusion in Geographic Information Systems[A]. Proceedings of the 30th VLDB 2004. 816-827. 被引量：1

共引文献140

1杨雷挺,王中辉.顾及道路约束的面状居民地匹配方法[J].测绘科学,2023,48(11):245-254.
2江坤,王中辉.锥形模型的面群方向关系相似性度量方法[J].测绘科学,2022,47(6):174-180. 被引量：2
3焦洋洋,王卉,翟仁健.顾及邻域相似性的面要素匹配方法[J].辽宁工程技术大学学报（自然科学版）,2013,32(7):947-952. 被引量：7
4徐枫,邓敏,赵彬彬,陈建军.空间目标匹配方法的应用分析[J].地球信息科学,2009,11(5):657-663. 被引量：32
5叶亚琴,万波,陈波.基于成分关联区域相似度的面实体模糊匹配算法[J].地球科学（中国地质大学学报）,2010,35(3):385-390. 被引量：8
6付仲良,邵世维,童春芽.基于正切空间的多尺度面实体形状匹配[J].计算机工程,2010,36(17):216-217. 被引量：13
7周顺平,柳怀颖.基于概率及复合指标的矢量数据对比[J].计算机应用,2010,30(10):2602-2604. 被引量：2
8付仲良,邵世维.复杂面状矢量要素快速形状匹配方法[J].测绘通报,2011(3):26-28. 被引量：8
9李健,万幼川,黄俊,徐景中.土地资源管理系统空间数据更新技术研究[J].测绘科学,2011,36(3):95-97. 被引量：2
10安晓亚,孙群,肖强,严薇.一种形状多级描述方法及在多尺度空间数据几何相似性度量中的应用[J].测绘学报,2011,40(4):495-501. 被引量：52

1薛锦,袁福祥,刘毅敏,张萌,乔亚琼,罗向阳.基于单点地名匹配和局部地名筛选的推特用户定位方法[J].网络与信息安全学报,2023,9(4):53-63.
2夏灿铭,邢玛丽,何胜煌.基于XLNet的业务流程下一活动预测方法[J].计算机集成制造系统,2023,29(10):3496-3503.
3陈繁繁,白永平,梁建设,张春悦,赵越,龚享林.兰州市蔬菜市场的空间分布特征及影响因素研究[J].干旱区地理,2024,47(2):293-306. 被引量：1
4于雷,米新亮,沈艳秋.地理信息技术在智慧城市中的运用分析[J].通讯世界,2024,31(1):142-144.
5陈涛,陈浩,朱子.数字化转型助力现场综合化维护提质增效[J].通信企业管理,2024(7):72-73.
6代耀,高爽.中国佛教协会召开2023年度警示教育大会[J].法音,2023(12):76-76.
7王凯,任劼,章为川.基于Swin Transformer的图神经网络小样本图像分类算法[J].激光与光电子学进展,2024,61(12):371-379.
8周逍杭.多源地名实体融合算法研究[J].科技资讯,2024,22(8):19-21.
9张新新,潘煌.出版数字化转型走向数据化改革——出版业新质生产力劳动对象的质变[J].出版广角,2024(8):24-30.
10赵长海.加强公路档案创新性管理工作的有效措施分析[J].兰台内外,2024(15):55-57.

地理空间信息

2024年第8期

浏览历史

内容加载中请稍等...

基于XLNet的多数据源中文地名匹配方法

参考文献5

二级参考文献50

共引文献140

相关作者

相关机构

相关主题

浏览历史