基于机器学习的自动文摘研究综述被引量：16

A Review on Machine Learning Oriented Automatic Summarization

导出

摘要探讨基于机器学习的自动文摘研究中的特征选取、算法选择、模型训练、文摘提取和模型评测等主要过程;重点分析3种主要的机器学习算法:朴素贝叶斯、隐马尔科夫和条件随机场,阐释3种算法的基本思想,在对相关研究进行系统梳理的基础上,给出作者的思考;对3种机器学习算法在训练方法、协同训练与主动学习、类别平衡以及词汇分布等方面存在的共性问题进行深入讨论并提出未来的主要研究方向。 This paper probes into the process of automatic summarization based on machine learning, including fea- tures selection, algorithm selection, model training, abstracts extraction, model evaluation. The Review focuses on three main machine learning algorithms： Naive Bayes, Hidden Markov Model and Conditional Random Fields, mainly elabora- ting the idea of these algorithms, summarizing related research, and giving reflections. Then it discusses the common problems with three machine learning algorithms, including training methods, collaborative training and active learning, category balance, terms distribution. In the end, future research directions are explored.

作者曹洋成颖裴雷

机构地区南京大学信息管理学院

出处《图书情报工作》 CSSCI 北大核心 2014年第18期122-130,共9页 Library and Information Service

基金国家社会科学基金重大招标项目"面向学科领域的网络信息资源深度聚合与服务研究"(项目编号:12&ZD221) 国家自然科学基金项目"融合范式视角下的链接分析理论集成框架及其实证研究"(项目编号:71273125)研究成果之一

关键词自动文摘机器学习 NB HMM CRF automatic summarization machine learning NB HMM CRF

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献73

1Luhn H P. The automatic creation of literature abstracts[J]. IBM Journal of Research and Development, 1958, 2(2): 159-165. 被引量：1
2Mani I, Maybury M T. Advances in automatic text summarization[M]. Cambridge: MIT Press, 1999. 被引量：1
3Mani I, Bloedorn E. Machine learning of generic and user-focused summarization[C]//Proceedings of the Fifteenth National Conference on Artificial Intelligence.Reston VA:AAAI Press, 1998: 821-826. 被引量：1
4Mitchell T M. Machine learning[M]. Burr Ridge: McGraw Hill, 1997:45. 被引量：1
5郭燕慧,钟义信,马志勇,姚均勇.自动文摘综述[J].情报学报,2002,21(5):582-591. 被引量：24
6Jones K S. Automatic summarizing:Factors and directions[C]//Advances in Automatic Text Summarization. Cambridge: MIT Press,1999:1-12. 被引量：1
7Hovy E, Marcu D. Automated text summarization[C]//The Oxford Handbook of Computational Linguistics. USA: Oxford University Press,2005:583-598. 被引量：1
8Baxendale P B. Machine-made index for technical literature:An experiment[J]. IBM Journal of Research and Development, 1958, 2(4): 354-361. 被引量：1
9Edmundson H P. New methods in automatic extracting[J]. Journal of the ACM (JACM), 1969, 16(2): 264-285. 被引量：1
10Ramezania M, Feizi-Derakhshi M. Automated text summarization:An overview[J]. Applied Artificial Intelligence:An International Journal,2014, 28(2):178-215. 被引量：1

二级参考文献87

1孙建军.网络公共信息资源利用效率影响因素模型构建[J].信息资源管理学报,2011,1(1):26-32. 被引量：9
2刘挺,吴岩,王开铸.基于信息抽取和文本生成的自动文摘系统设计[J].情报学报,1997,16(S1):31-36. 被引量：13
3段宇锋.网络链接研究中的制约因素分析[J].图书情报知识,2004,21(6):8-13. 被引量：9
4苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：26
5莫燕,王永成.中文文献摘要的自动编制[J].现代图书情报技术,1993(3):10-12. 被引量：15
6王建波,杜春玲,王开铸.基于篇章理解的自动文摘研究[J].中文信息学报,1995,9(3):33-42. 被引量：12
7袁毅.链接分析用于学术网站评价存在的问题及解决办法[J].情报学报,2005,24(5):585-593. 被引量：20
8秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
9姜维,关毅,王晓龙.基于条件随机域的词性标注模型[J].计算机工程与应用,2006,42(21):13-16. 被引量：12
10夏义堃.公共信息资源属性、分类及管理结构分析[J].图书情报工作,2007,51(5):59-62. 被引量：20

共引文献58

1王士军,彭忠良.论移动新媒体破解新生代农民工信息饥渴的机遇与挑战[J].河北北方学院学报（社会科学版）,2013,29(3):60-63. 被引量：3
2金旭,杨炳儒,菅志刚.自动文摘方法分析[J].计算机应用研究,2004,21(9):5-6. 被引量：8
3邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11
4韩泽春.网络信息资源知识组织方法比较研究[J].运城学院学报,2005,23(3):102-104. 被引量：1
5文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
6王德亮.语篇脉络理论述评——宏观语篇处理[J].现代外语,2006,29(3):309-316. 被引量：3
7吴玲达,雷震,老松杨,雷永林.基于局部话题句群的事件相关多文档摘要研究[J].计算机仿真,2006,23(11):263-267. 被引量：2
8林鸿飞,杨志豪,赵晶.基于段落匹配和分布密度的偏重摘要实现机制[J].中文信息学报,2007,21(1):43-48. 被引量：1
9任纪生,张弛,王作英.一种基于词序信息的自动文摘方法[J].计算机工程与设计,2007,28(1):178-181. 被引量：3
10闫英杰,林鸿飞,王剑峰.基于混合策略的中文文摘自动评测方法[J].广西师范大学学报（自然科学版）,2007,25(2):165-168.

同被引文献187

1杨建国.数学作业批改模式初探[J].课程教材教学研究（中教研究）,2008(3):51-52. 被引量：1
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3陈燕敏,王晓龙,刘远超,楼喜中.一种基于文章主题和内容的自动摘要方法[J].计算机工程与应用,2004,40(33):11-14. 被引量：12
4陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
5苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：26
6秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
7郭庆琳,樊孝忠,柳长安.基于文本聚类的自动文摘系统的研究与实现[J].计算机工程,2006,32(4):30-32. 被引量：8
8罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
9秦兵,刘挺,陈尚林,李生.多文档文摘中句子优化选择方法研究[J].计算机研究与发展,2006,43(6):1129-1134. 被引量：13
10刘晓华,刘建舟.智能化网络作业系统的设计与实现[J].现代远距离教育,2006(3):54-56. 被引量：2

引证文献16

1王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
2卢玲,杨武,曹琼.基于多重映射的自动短文摘方法[J].计算机应用,2016,36(2):432-436.
3朱明峰,叶施仁,叶仁明.基于Lex-PageRank的微博摘要优化方法[J].计算机科学,2016,43(9):261-265. 被引量：1
4刘一波.基于多重映射的自动中文短文摘提取方法[J].电子技术与软件工程,2016(20):177-178.
5赖清楠,陈诗洋,马皓,张蓓.基于机器学习的批量网页篡改检测方法[J].华中科技大学学报（自然科学版）,2016,44(11):16-20. 被引量：3
6白淑霞,鲍玉来,张晖.基于词向量包的自动文摘方法[J].现代情报,2017,37(2):8-13. 被引量：5
7张晗,赵玉虹.基于语义图的医学多文档摘要提取模型构建[J].图书情报工作,2017,61(8):112-119. 被引量：11
8王琦,余胜泉.作业社会化批阅工具的设计、开发与评估[J].开放教育研究,2017,23(3):96-104. 被引量：1
9赵美玲,刘胜全,刘艳,郭竹为,符贤哲.基于改进K-means聚类与图模型相结合的多文本自动文摘研究[J].现代计算机（中旬刊）,2017(6):26-30. 被引量：3
10郭正斌,张仰森,蒋玉茹.一种面向文本分类的特征向量优化方法[J].计算机应用研究,2017,34(8):2299-2302. 被引量：13

二级引证文献98

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
2梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
3SHI Hui,WANG Tiexin.A Hybrid Method of Extractive Text Summarization Based on Deep Learning and Graph Ranking Algorithms[J].Transactions of Nanjing University of Aeronautics and Astronautics,2022,39(S01):158-165. 被引量：1
4那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
5刘小敏,王昊,李心蕾,邓三鸿.不同特征粒度在微博短文本分类中作用的比较研究[J].情报科学,2018,36(12):126-133. 被引量：10
6李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
7韩耀廷,许志伟,刘利民.基于Storm云平台的增量文本分类机制研究[J].内蒙古工业大学学报（自然科学版）,2018,37(4):279-286.
8刘天祎,步一,赵丹群,黄文彬.自动引文摘要研究述评[J].现代图书情报技术,2016(5):1-8. 被引量：3
9高永兵,王宇,马占飞.基于CR-PageRank算法的个人事件自动摘要研究[J].计算机工程,2016,42(11):64-69. 被引量：3
10李鹏鹏,范会敏.文本分类中特征权重算法改进研究[J].计算机与现代化,2018(2):66-70. 被引量：5

1Brief Instructions to Authors[J].Neuroscience Bulletin,2014,30(6).
2Brief Instructions to Authors[J].Neuroscience Bulletin,2014,30(2).
3Brief Instructions to Authors[J].Neuroscience Bulletin,2015,31(2).
4Brief Instructions to Authors[J].Neuroscience Bulletin,2014,30(5).
5Brief Instructions to Authors[J].Neuroscience Bulletin,2014,30(4).
6Brief Instructions to Authors[J].Neuroscience Bulletin,2015,31(1).
7高媛,刘大中.中文文本分类方法比较研究[J].科技信息,2008(2):7-8. 被引量：2
8编读[J].新世纪周刊,2014(10):23-23.
9Brian.富士山下[J].中国服装（北京）,2008(10):68-69.
10李红艳.守门人理论研究的新视角[J].新闻界,2005(2):86-87. 被引量：14

图书情报工作

2014年第18期

浏览历史

内容加载中请稍等...

基于机器学习的自动文摘研究综述被引量：16

参考文献73

二级参考文献87

共引文献58

同被引文献187

引证文献16

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

基于机器学习的自动文摘研究综述 被引量：16

参考文献73

二级参考文献87

共引文献58

同被引文献187

引证文献16

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

基于机器学习的自动文摘研究综述被引量：16