基于维基语义的多文档文摘研究被引量：2

Multi-documents summarization utilizing semantics in Wikipedia

下载PDF

导出

摘要多文档文摘作为自然语言处理领域的重要技术之一,能从不同角度辅助用户实现高效的信息获取.由于文档集合内的内容往往来自不同的信息源,文本之间通常存在丰富而复杂的语义关系.常用的基于词的文档表示法,难以为文摘的语义分析过程提供充足而准确的数据信息.为此,我们提出使用维基百科——当今世界最大的在线概念语料库——为多文档文摘的提取提供语义支持.一方面,我们通过提取文档中的维基概念,生成准确一致的句子表示形式.另一方面,在计算句子特征时,我们利用维基词条的首段指导机器文摘的提取.我们首先通过计算概念在维基中的全局相关性和当前文档集内的局部相关性,获取概念的权重.然后在维基概念表示的基础上,为文档中的句子提取多种基于维基的特征,并最后用于文摘生成.在实验中,我们依次用各个维基特征独立生成文摘,并使用ROUGE(Recall-Oriented Understudy for Gisting Evaluation,面向召回率的要点评估)指标评价文摘质量.通过比较,实验验证了维基词条首段能较好的提升文摘质量. As an importance technique of natural language processing,multi-documents summarization can facilitate users＇ information retrieval processes.As the documents in a collection are always collected from different resources,there exist abundant and also complex semantic relations inside a document collection.It＇s hard for the widely used word-based text representation to provide sufficient and accurate information for semantic analysis in summarization process.Thus,we try to use Wikipedia,which has extensive concepts coverage,to extract the concept-based representation of documents.We assess the importance of concepts using both global and local information.The global relatedness of concepts is based on Wikipedia＇s link structure,while the local relatedness is calculated based on concepts＇ co-occurrence in sentence.Three wiki-based features are proposed： The first one is the widely used sentence salience feature based on Markov Chain.The other two are both based on sentence similarity with first paragraphs of concept articles in Wikipedia,but one using all concepts occurring in collection while the other using only other contained in sentence itself.Finally we linearly combined these features to select important sentences,which are then concatenated to form summary.We compared these features in experiments,and proved that the first paragraph of related concepts＇ Wikipedia articles can bring better summary quality.

作者龚书瞿有利田盛丰

机构地区北京交通大学计算机与信息技术学院

出处《南京大学学报（自然科学版）》 CAS CSCD 北大核心 2011年第4期398-406,共9页 Journal of Nanjing University（Natural Science）

基金教育部科学技术研究重点项目(108126) 国家自然科学基金(10871019/a0107)

关键词自动文摘语义分析概念表示维基百科 automatic summarization semantic analysis concept representation Wikipedia

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献24

1Luhn H P. The automatic creation of literature abstracts. IBM Journal of Research and Devel- opment, 1958, 2(2): 159-165. 被引量：1
2Ogden C K, Richards I A. The meaning of meaning. Harcourt, Brace and World, New York, 1946, 109-138. 被引量：1
3Wu C W, Liu C L. Ontology-based text sum- marization for business news articles. Proceed- ings of the 18^th International Conference on Computers and Their Applications. Honolulu, Hawaii, USA, 2003, 389-392. 被引量：1
4Nastase V. Topic-driven multi-document sum- marization with encyclopedic knowledge and spreading activation. Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, 2008, 763-772. 被引量：1
5YehJ Y, Ke H R, Yang W P, et al. Text summarization using a trainable summarizer and latent semantic analysis. Information Processing and Management, 2005, 41(1): 75-95. 被引量：1
6http://en, wikipedia, org/wiki/Main_ Page. 被引量：1
7http://en, wikipedia, org/wiki/List_ of_ Wiki - pedias. 被引量：1
8Milne D, Witten I H. An open source toolkit for mining Wikipedia. Proceedings of New Zeal- and Computer Science Research Student Confer- ence, 2009, 9. 被引量：1
9http://en, wikipedia, org/wiki/Chinese_ Wiki- pedia. 被引量：1
10Mihalcea R, Csomai A. Wikify! : Linking docu ments to encyclopedic knowledge. Proceedings of the Association for Computing Machinery (ACM) Conference on Information and Knowl edge Management, 2007, 233-242. 被引量：1

同被引文献11

1代六玲,王树梅,黄河燕,陈肇雄.一种改进的多关键字匹配算法[J].南京理工大学学报,2005,29(6):735-739. 被引量：4
2Li Yancui, Feng Hongyu, Zhu Kunhual, Multi-Document summarization research based on topic model[J], InternationalReview on Computers and Software, 2012, 7 ( 2 ) , p 677-682. 被引量：1
3李卫疆,赵铁军,臧文茂.基于文摘的信息检索模型[J].软件学报,2008,19(9):2329-2338. 被引量：6
4刘兴林,郑启伦,马千里.一种基于主题词集的自动文摘方法[J].计算机应用研究,2011,28(4):1322-1324. 被引量：6
5刘杨,田学锋,詹志辉.粒子群优化算法惯量权重控制方法的研究[J].南京大学学报（自然科学版）,2011,47(4):364-371. 被引量：29
6申彦,宋顺林,朱玉全.一种基于半监督的大规模数据集聚类算法[J].南京大学学报（自然科学版）,2011,47(4):372-382. 被引量：1
7邵丹,王健.一种构建电子商务信任网的交易模式[J].南京大学学报（自然科学版）,2011,47(4):407-413. 被引量：4
8周雷,喻言,李志瑞,王洁,孙贞,欧进萍.海洋平台振动采集的超低频无线传感器设计[J].南京大学学报（自然科学版）,2011,47(4):414-419. 被引量：3
9谢志华,刘国栋,伍世虔,方志军,卢宇.基于统计回归模型的红外人脸温度归一化[J].南京大学学报（自然科学版）,2011,47(4):426-431. 被引量：2
10郑拓,吴功平,严宇,徐显金,乐正.高压线巡检机器人巡检与通讯系统设计与实现[J].武汉大学学报（工学版）,2012,45(2):235-240. 被引量：9

引证文献2

1高阳.中国数据挖掘研究进展[J].南京大学学报（自然科学版）,2011,47(4):351-353. 被引量：27
2石晓亮.基于多关键字匹配算法的巡检视频评价系统的研究[J].网络安全技术与应用,2014(1):53-54. 被引量：1

二级引证文献28

1吴英杰,王一蕾,廖尚斌,王晓东.面向事务型数据隐私保护的p-剖分l-多样化算法[J].南京大学学报（自然科学版）,2011,47(5):551-558. 被引量：1
2赵成兵,李天瑞,王仲刚,高子喆.基于MapReduce的高铁振动数据预处理[J].南京大学学报（自然科学版）,2012,48(4):390-396. 被引量：5
3李健森,白万民.一种改进的距离度量的聚类算法[J].电子设计工程,2012,20(22):86-88. 被引量：3
4王海荣.数据挖掘在学生成绩分析中的应用[J].电子设计工程,2013,21(4):54-56. 被引量：11
5王海荣.数据挖掘技术在教学管理中的应用研究[J].电子设计工程,2013,21(3):43-46. 被引量：1
6马晓文,胡学钢,谢飞,郭丹.带通配符的多序列模式挖掘[J].南京大学学报（自然科学版）,2013,49(2):226-234. 被引量：1
7王一蕾,吴英杰,孙岚.隐私保护关系型数据发布的多维划分动态规划算法[J].南京大学学报（自然科学版）,2013,49(2):258-267. 被引量：2
8牟廉明.选择性自适应k子凸包分类方法[J].南京大学学报（自然科学版）,2013,49(4):411-417. 被引量：2
9刘晓蔚.量化交易中无需最小支持度阈值的模糊关联规则挖掘[J].科学技术与工程,2013,21(26):7667-7674. 被引量：2
10刘晓蔚.数据挖掘预测模型在脑伤患者认知功能康复中的应用与研究[J].东莞理工学院学报,2013,20(5):51-58.

1孙春葵,钟义信.关于自然语言处理中的文摘生成及其相关技术[J].计算机科学,1999,26(10):16-19. 被引量：2
2胡琪,邹细勇.基于MapReduce的多文档自动文摘的设计与实现[J].计算机工程与应用,2011,47(35):67-70.
3蒋昌金,彭宏,陈建超,马千里.基于主题词权重和句子特征的自动文摘[J].华南理工大学学报（自然科学版）,2010,38(7):50-55. 被引量：17
4刘江鸣,徐金安,张玉洁.基于隐主题马尔科夫模型的多特征自动文摘[J].北京大学学报（自然科学版）,2014,50(1):187-193. 被引量：4
5杨颖,戴彬.基于多特征的中文关键词抽取方法[J].计算机应用与软件,2014,31(11):109-112. 被引量：6
6任纪生,张弛,王作英.一种基于词序信息的自动文摘方法[J].计算机工程与设计,2007,28(1):178-181. 被引量：3
7张培颖.基于句子特征和语义距离的文本摘要技术[J].微计算机应用,2009,30(7):14-18. 被引量：3
8刘金岭,倪晓红,王新功.手机短信文本信息流的自动文摘生成[J].现代图书情报技术,2013(2):43-49. 被引量：4
9郭庆琳,吴克河,吴慧芳,李存斌.基于文本聚类的多文档自动文摘研究[J].计算机研究与发展,2007,44(z2):140-144. 被引量：5
10俞辉.基于LSA和pLSA的多文档自动文摘[J].计算机工程与科学,2009,31(9):108-111. 被引量：6

南京大学学报（自然科学版）

2011年第4期

浏览历史

内容加载中请稍等...

基于维基语义的多文档文摘研究被引量：2

参考文献24

同被引文献11

引证文献2

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于维基语义的多文档文摘研究 被引量：2

参考文献24

同被引文献11

引证文献2

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于维基语义的多文档文摘研究被引量：2