基于文档语义图的中文多文档摘要生成机制被引量：6

Document Semantic Graph Based Chinese Multi-Document Summarization

下载PDF

导出

摘要从文档集合的语义结构理解文档集合可以提高多文档摘要的质量。本文通过抽取中文多文档摘要文档集中的主-述-宾三元组结构构建文档语义图,再对语义图中的节点利用编辑距离进行语义聚类,并应用Page-Rank排序算法对语义图进行权重计算后,选取包含权重较高的节点及链接关系的三元组生成文档集合的多文档摘要。在摘要的评测阶段,将基于句子抽取的多文档摘要结果和基于文档语义图生成的多文档摘要分别与由评测员人工生成的摘要进行ROUGE相关度评测,并对利用编辑距离对语义图进行语义聚类前后的结果进行了比较。实验结果表明,基于文档语义图生成的多文档摘要与人工生成的摘要结果重叠度更高,而利用编辑距离对语义图进行聚类则进一步改进了摘要的质量。 Proper processing of the document set based on its semantic structure helps bring about better multi-document summaries. In this paper, subject-object-predicate triples are firstly extracted from document set to construct document semantic graph. Then the edit distance based clustering and PageRank algorithm are applied to optimize the graph structure and to assign weights to the vertices and links, respectively. Finally, triples with more weighted vertices and links are collected as the summary. Evaluated against the extraction-based summarization in terms of the ROUGE score on a set of manual generated summaries, it shows that the semantic graph-based summarization gained more overlaps with manually created summaries, and the edit distance-based graph structure optimization is positive to the the summarization quality.

作者宋锐林鸿飞

机构地区大连理工大学计算机科学与工程系

出处《中文信息学报》 CSCD 北大核心 2009年第3期110-115,共6页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60373095 60673039) 国家863高科技计划资助项目(2006AA01Z151)

关键词计算机应用中文信息处理文档语义图编辑距离 PAGERANK ROUGE 中文多文档摘要 computer application Chinese information processing document semantic graph edit distance Page-Rank ROUGE Chinese multi-document summarization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献21

1秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
2刘德喜,何炎祥,姬东鸿,杨华.一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA[J].中文信息学报,2006,20(6):46-53. 被引量：10
3傅间莲,陈群秀.自动文摘系统中的主题划分问题研究[J].中文信息学报,2005,19(6):28-35. 被引量：13
4傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
5马慧芳,祁云平,杨小东.一种基于文本关系图的多文档自动摘要技术[J].情报杂志,2007,26(3):67-69. 被引量：7
6耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
7王建波,王开铸.自然语言篇章理解及基于理解的自动文摘研究[J].中文信息学报,1992,6(2):1-7. 被引量：13
8王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
9Lucy Vanderwende, Michele Banko, Arul Menezes. Event-centric summary generation[C]//Proceedings of Document Understanding Conference, Boston, USA, 2004.Available at: duc. hist. gov/pubs/2004papers/microsoft, banko, pdf. 被引量：1
10Jure Leskovec, Natasa Milic-Frayling, Marko Grobe-lnik. Extracting Summary Sentences Based on the Document Semantic Graph. MSR-TR-2005-07. Available at: ftp://ftp, research, microsoft, com/ pub/tr/TR-2005-07, pdf. 被引量：1

二级参考文献93

1钟伟才,刘静,刘芳焦,李成.组合优化多智能体进化算法[J].计算机学报,2004,27(10):1341-1353. 被引量：34
2王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
3钟彬彬,刘远超,徐志明.基于GA的文本子主题切分中的参数优化研究[J].计算机工程与应用,2005,41(21):97-99. 被引量：2
4傅间莲,陈群秀.基于连续段落相似度的主题划分算法[J].计算机应用,2005,25(9):2022-2024. 被引量：10
5秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
6傅间莲,陈群秀.自动文摘系统中的主题划分问题研究[J].中文信息学报,2005,19(6):28-35. 被引量：13
7穗志方俞士汶.基于骨架依存树的语句相似度计算模型[A]..中文信息处理国际会议论文集(ICCIP''98)[C].北京:清华大学出版社,1998.458-465. 被引量：6
8吴应天，文章结构学，1986年被引量：1
9王建波被引量：1
10Sahon G, wong A, Yang C S. A vector space model for automatic indexing [J]. Communications of ACM, 1995,18:613 - 620. 被引量：1

共引文献133

1刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
2廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12
3傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
4李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1
5刘德喜,何炎祥,姬东鸿,杨华.一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA[J].中文信息学报,2006,20(6):46-53. 被引量：10
6马慧芳,祁云平,杨小东.一种基于文本关系图的多文档自动摘要技术[J].情报杂志,2007,26(3):67-69. 被引量：7
7胡珀,何婷婷.基于自适应聚类的文本潜在主题的自动发现[J].郑州大学学报（理学版）,2007,39(2):92-95. 被引量：4
8林鸿飞,卢冶,王剑峰,宋锐.基于概念扩充和综合评价的文本综述[J].郑州大学学报（理学版）,2007,39(2):104-109. 被引量：2
9杨晓兰,王明会,钟义信.文本理解、知识获取及自动文摘系统研究与实现[J].电子器件,1997,20(1):394-399.
10官礼和.Internet网络新闻文本自动摘要的研究[J].计算机工程与设计,2007,28(14):3518-3520. 被引量：9

同被引文献82

1司联合.《概念层次网络理论》(HNC)述评[J].语言科学,2003,2(4):101-108. 被引量：2
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
4梁晗,陈群秀,吴平博.基于事件框架的信息抽取系统[J].中文信息学报,2006,20(2):40-46. 被引量：38
5马费成,张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报,2006,25(2):163-171. 被引量：513
6傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
7索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
8刘德喜,何炎祥,姬东鸿,杨华.一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA[J].中文信息学报,2006,20(6):46-53. 被引量：10
9赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：23
10马慧芳,祁云平,杨小东.一种基于文本关系图的多文档自动摘要技术[J].情报杂志,2007,26(3):67-69. 被引量：7

引证文献6

1韩永峰,许旭阳,李弼程,朱武斌,陈刚.基于事件抽取的网络新闻多文档自动摘要[J].中文信息学报,2012,26(1):58-66. 被引量：15
2王红玲,周国栋,朱巧明.面向冗余度控制的中文多文档自动文摘[J].中文信息学报,2012,26(2):92-96. 被引量：6
3卢冶,苏勇,须磊.基于手机终端的中文文本网页自动综述系统的研究[J].计算机与数字工程,2013,41(6):943-946.
4孙佩佩,廖涛,刘宗田.基于事件要素的自动文摘抽取[J].计算机与数字工程,2015,43(10):1829-1833. 被引量：2
5刘欣,王波,毛二松.基于PV-DM模型的多文档摘要方法[J].计算机应用与软件,2016,33(10):251-255. 被引量：2
6任立园,谢振平,刘渊.文本摘要的建构渗透度特征模型[J].中文信息学报,2018,32(7):74-81.

二级引证文献25

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2曾哲军.基于连续LexRank的多文本自动摘要优化算法研究[J].计算机应用与软件,2013,30(10):209-212. 被引量：4
3刘晓燕,黄宇,尤红建.基于仿射传播算法的多文档摘要方法[J].国外电子测量技术,2014,33(8):29-33. 被引量：3
4王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
5杨竣辉,刘宗田,刘炜,苏小英.基于文本事件网络自动摘要的抽取方法[J].计算机科学,2015,42(3):210-213. 被引量：4
6卢玲,杨武,曹琼.基于多重映射的自动短文摘方法[J].计算机应用,2016,36(2):432-436.
7张学芳,刘胜全,刘艳.舆情本体概念抽取研究[J].新疆大学学报（自然科学版）,2016,33(3):333-337. 被引量：3
8朱明峰,叶施仁,叶仁明.基于Lex-PageRank的微博摘要优化方法[J].计算机科学,2016,43(9):261-265. 被引量：1
9康世泽,马宏,黄瑞阳.一种基于神经网络模型的句子排序方法[J].中文信息学报,2016,30(5):195-202. 被引量：5
10罗森林,白建敏,潘丽敏,韩磊,孟强.融合句义特征的多文档自动摘要算法研究[J].北京理工大学学报,2016,36(10):1059-1064. 被引量：3

1刘茂福,余博,胡慧君.基于维基百科的多文档自动摘要系统研究[J].微型机与应用,2011,30(16):89-91.
2叶娜,蔡东风.一种面向查询的多文档摘要方法[J].中文信息学报,2010,24(6):69-74. 被引量：1
3邵洲,张晖.基于完全稀疏主题模型的多文档自动摘要[J].计算机工程与设计,2014,35(3):1032-1036. 被引量：1
4付玲,张晖.结合LDA和谱聚类的多文档摘要[J].计算机工程与应用,2013,49(16):142-145. 被引量：8
5DRAGON ROUGE 集团[J].包装与设计,2010(4):32-45.
6王振超,孙锐,姬东鸿.基于事件指导的多文档生成式摘要方法[J].计算机应用研究,2017,34(2):343-346. 被引量：6
7张龙凯,王厚峰.文本摘要问题中的句子抽取方法研究[J].中文信息学报,2012,26(2):97-101. 被引量：10
8Moncler Gamme Rouge举重若轻[J].流行色,2013(1).
9买哈铺热提.外力,赵梦原,艾斯卡尔.艾木都拉.基于关键词的维吾尔单文档自动文摘技术研究[J].计算机工程与应用,2015,51(16):130-135. 被引量：6
10雷自学.如何将《数据结构》的算法转化成程序[J].电脑编程技巧与维护,2007(2):90-92.

中文信息学报

2009年第3期

浏览历史

内容加载中请稍等...

基于文档语义图的中文多文档摘要生成机制被引量：6

参考文献21

二级参考文献93

共引文献133

同被引文献82

引证文献6

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于文档语义图的中文多文档摘要生成机制 被引量：6

参考文献21

二级参考文献93

共引文献133

同被引文献82

引证文献6

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于文档语义图的中文多文档摘要生成机制被引量：6