基于同义实体扩展的冗余信息去重被引量：3

Synonymous Entity Expansion Based Information De-duplication

下载PDF

导出

摘要冗余信息去重是信息抽取中的重要任务,对于多元素表示的信息,该文针对以往对各个元素统一处理所存在的问题,将信息元素进行分类,由各类元素的冗余判断难易出发,归纳相似度计算方法,并将各相似度作为特征,通过分类器判断信息间的冗余性。同时对最难判断的命名实体信息元素,该文从其他易判断相似性的信息元素出发,通过同义命名实体的自动扩展,提高信息去重的效果。 Information De-duplication is an important task of Information Extraction.This paper focuses on the multi-field information de-duplication.Previous works usually treat each information field equally.We separate information fields into several categories,generalize the computing method of similarity for each single filed,and use those similarities as the features in a machine learning method to distinguish duplicate information pairs.For the most difficult named entity field,we expand co-reference pairs by using the other easy predicted fields,and use the expanded knowledge to improve the de-duplication performance.

作者姜孟晋周雅倩黄萱菁

机构地区复旦大学计算机科学技术学院

出处《中文信息学报》 CSCD 北大核心 2012年第1期42-50,共9页 Journal of Chinese Information Processing

关键词信息抽取信息去重命名实体 information extraction information de-duplication named entity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1Mikhail Bilenko, Raymond J. Mooney. Adaptive Du- plicate Detection Using Learnable String Similarity Measures [C]//Proceedings of KDD, Washington, DC, USA, 2003: 39-48. 被引量：1
2Rohan Baxter, Peter Christen, Tim Churches. A Comparison of Fast Blocking Methods {or Record [C]//Proceedings of KDD. Washington, DC, USA, 2003: 25-27. 被引量：1
3Lifang Gu, Rohan Baxter. Adaptive Filtering for Effi- cient Record Linkage[C]//Proceedings of the Fourth SIAM International Conference on Data Mining, Lake Buena Vista, Florida, USA, 2004: 477-481. 被引量：1
4李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
5王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
6张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
7William W. Cohen, Pradeep Ravikumar, Stephen E. Fienberg. A comparison of string distance metrics for name-matching tasks [C]//Proceedings of IJCAI, 2003: 73-78. 被引量：1
8http://www, cs. umass, edu/- mccallum/code-data. html [OL]. 被引量：1
9M Vilain, J Burger, J Aberdeen, et al. A model-theo- retic coreference scoring scheme[C]//Proceedings of the 6th Conference on Message Understanding. Co- lumbia, Maryland, USA, 1995: 45-52. 被引量：1
10Amit Bagga, Breck Baldwin. Algorithms for Scoring Coreference Chains[C]//Proceedings of The First In- ternational Conference on Language Resources and E- valuation Workshop on Linguistics Coreference. 1998: 563-566. 被引量：1

二级参考文献26

1吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
2M. Carl.Recent Research in the Field of Example-Based Machine Translation[A]. CICLing 2001 ,LNCS 2004. 被引量：1
3W. John Hutchins. Machine Translation: a brief history. Concise history of the language sciences: from the Sumerians tothe cognitivists[M]. Oxford:Pergamon Press, 1995. 被引量：1
4Sumita,E.and H.Iida. Experiments and Prospects of.Example-Based Machine Translation[A]. Proceedings of 29th ACL Meeting[C]. Berkeley, 1991,185 - 192. 被引量：1
5K. Chidananda Gowda and E. Diday. Symbolic Clustering Using a New Similarity Measure[J]. IEEE. Transactions on Systems, Man, and Cybernetic, 1992,22(2). 被引量：1
6Federica Mandreoli, Riccardo Martoglia, and Paolo Tiberio. Searching Similar(Sub) Sentences for Example-Based Machine Translation[ A ]. In: Atfi del Decimo Convegno Nazionale su Sistemi Evoluti per Basi di Dati(SEBD 2002 ), Isola d'Elba, Italy, 2002. 被引量：1
7J. Carbonell, J. Goldstein, 1998. The use of MMR, diversity-based reranking for reordering documents and producing summaries [ A],In: Proceedings of the 21st ACM-SIGIR International Conference on Research and Development in Information Retrieval [C], Melbourne, Australia. 被引量：1
8Lin, Chin-Yew and E. H. Hovy 2003. Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics [ A ]. In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003) [C],Edmonton,Canada,May 27- June 1,2003. 被引量：1
9Lin, Chin-Yew and E. H. Hovy. 2002. Automated Multi-document Summarization in NeATS [ A ]. In Proceedings of the Human Language Technology Conference (HLT2002) [C] ,San Diego,CA,U.S.A. ,March 23-27,2002. 被引量：1
10Radev,D.R. ,Jing,H. ,and Budzikowska,M.2000. Centroid-based summarization of multiple documents [A] .In ANLP-NAACL workshop on summarization [ C]. 被引量：1

共引文献153

1张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
2刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
3吴雅娟,陈尧,尚福华.一种新的基于相似度计算的本体映射算法[J].计算机应用研究,2009,26(3):870-872. 被引量：11
4左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
5张燕,宋锦斌.卡通动画数字媒体资源管理系统[J].长沙医学院学报,2010(2):54-56. 被引量：1
6曹立勇,郑诚.基于知网的语义相似度的改进算法[J].电子技术（上海）,2010(5):1-3. 被引量：2
7王常亮,滕至阳.语句相似度计算在FAQ中的应用[J].计算机时代,2006(2):24-26. 被引量：10
8化柏林.基于句子匹配的文章自写度测评系统[J].现代图书情报技术,2007(11):40-44. 被引量：2
9周法国,杨炳儒.句子相似度计算新方法及在问答系统中的应用[J].计算机工程与应用,2008,44(1):165-167. 被引量：45
10杨思春,陈家骏.中文自动问答中句子相似度计算研究[J].情报学报,2008,27(1):35-41. 被引量：5

同被引文献63

1张涛,吴冲.信息系统安全漏洞研究[J].哈尔滨工业大学学报（社会科学版）,2008,10(4):71-76. 被引量：8
2李民,周晶,高俊.复杂产品系统研制中的知识创造机理实证研究[J].科学学研究,2015,33(3):407-418. 被引量：17
3吴锋,李怀祖.外包环境下的知识管理与控制[J].研究与发展管理,2004,16(4):31-37. 被引量：8
4谢林柏,方华京,王华.网络化控制系统的信息调度与稳定性研究[J].控制与决策,2004,19(5):589-591. 被引量：19
5骆静,廖建桥.基于提高知识员工组织嵌入度的实践社群研究[J].科研管理,2006,27(2):133-139. 被引量：20
6蔺丰奇,刘益.信息过载问题研究述评[J].情报理论与实践,2007,30(5):710-714. 被引量：61
7ALAVI M D,LEIDNER D.Knowledge management and knowledge management systems:conceptual foundations and research issues[J].MIS Quarterly,25(1):106-127. 被引量：1
8HEISIG P.Harmonization of knowledge management-comparing160 KM frameworks around the globe[J].Journal of Knowledge Management,2009,13(4):4-31. 被引量：1
9MATSUDAIRA Y.The continued practice of'ethos':How Nissan enables organizational knowledge creation[J].Information Systems Management,2010,27(3):226-237. 被引量：1
10LINDLOF L,SODERBERG B,PERSSON M.Practices supporting knowledge transfer-an analysis of lean product development[J].International Journal of Computer Integrated Manufacturing,2012,26(12):1128-1135. 被引量：1

引证文献3

1刘杰.一种基于自动特征权值的实体相似度计算方法[J].重庆科技学院学报（自然科学版）,2014,16(3):157-160. 被引量：2
2徐扬.知识管理在新产品开发中的挑战[J].科技管理研究,2016,36(8):142-145. 被引量：1
3何晶晶,蔡德胜,介飞,吴共庆.利用D-S证据理论进行特征融合的同义实体识别[J].计算机应用研究,2018,35(5):1429-1433. 被引量：6

二级引证文献9

1徐祖润,刘思峰,方志耕,吴洁,刘勇.基于信息融合的罪案关联证据推理模型[J].控制与决策,2020,35(1):228-234. 被引量：2
2徐海伟,李希成,阮怀珍,黎海蒂.促肾上腺皮质激素对改进的炎性痛大鼠脑、脊髓内CGRP的影响[J].第三军医大学学报,2000,22(5):452-454.
3李晓炜,黄荣刚.新产品开发的挑战与管理对策研究[J].经济视野,2016,0(4):60-60.
4李阳,高大启.知识图谱中实体相似度计算研究[J].中文信息学报,2017,31(1):140-146. 被引量：15
5国佳,郭勇,沈旺,潘梦雅.基于在线评论的网络社区信息可信度评价方法研究[J].图书情报工作,2019,63(17):137-144. 被引量：16
6黄杰,尉永清,伊静,刘孟迪.基于核密度估计的基本概率指派生成方法[J].计算机应用研究,2020,37(7):2037-2040. 被引量：1
7李家全,李宝安,游新冬,吕学强.基于专利知识图谱的专利术语相似度计算研究[J].数据分析与知识发现,2020,4(10):104-112. 被引量：5
8赵一男,刘志雄,李莉,张嵩,赵芃,傅昊.电力项目规划评审平台多源数字化信息整合[J].信息技术,2021,45(3):119-124. 被引量：3
9祖国强,何俏君,张志德,徐伟.无人驾驶环境感知中多源数据融合应用综述[J].汽车文摘,2022(8):8-13. 被引量：1

1刘华春,王星捷.网络舆情信息提取技术研究与实现[J].计算机技术与发展,2016,26(9):8-11. 被引量：4
2朱铭杰.数据仓库设计与展现[J].计算机光盘软件与应用,2011(9):171-172. 被引量：1
3汤姆·范德比尔特,幕斯（绘图）.别学机器人[J].汽车自驾游,2009(12):150-151.
4方芳,谢琴.融合判断信息于分支预测器[J].电脑知识与技术,2009,5(3X):2204-2206.
5薛安荣,王丹,黄祖卫.基于CSS模板的职位信息并行抽取系统设计[J].电子科技,2016,29(10):93-96. 被引量：1
6浮怀鹏,谭卢师,吴元硕.CAD图元扩展数据[J].华北水利水电学院学报,2010,31(3):74-75. 被引量：6
7何伟,任涛.基于模糊推理的电网故障诊断专家系统的研究[J].电力系统通信,2008,29(9):47-50. 被引量：6
8蔡明煊.论金融信息化对金融业的影响[J].经济视野,2013(16).
9郭俊峰,李静,吴欣慧.基于Shearlet变换的数字水印与信息安全[J].电脑与电信,2015(8):33-34.
10程向力,仇建伟.基于数据模型的战场态势图信息管理技术[J].计算机工程与设计,2012,33(10):4033-4037. 被引量：3

中文信息学报

2012年第1期

浏览历史

内容加载中请稍等...

基于同义实体扩展的冗余信息去重被引量：3

参考文献17

二级参考文献26

共引文献153

同被引文献63

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于同义实体扩展的冗余信息去重 被引量：3

参考文献17

二级参考文献26

共引文献153

同被引文献63

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于同义实体扩展的冗余信息去重被引量：3