基于Web的文摘技术研究被引量：1

Automatic Text Summarization Based on Web

下载PDF

导出

摘要 W eb文档的迅猛增长使W eb文摘技术成了当今的一个研究热点。由于W eb文档的特殊性,使得W eb文摘不同于传统的文本自动文摘。本文分析了W eb文档的特点;给出了W eb文摘的定义;提出了基于句子抽取的W eb文摘生成算法。算法中将每个W eb句子权重分解为W eb特征词权重和W eb句子结构权重,并用机器学习的方法来计算二者所占的比重。W eb特征词权重根据文档分类树图进行权值调整,W eb句子结构权重充分考虑排版格式和超连接属性。通过对1000篇W eb文档的文摘实验,证明文中所提W eb文摘算法切实可行。 Web Document Summarization （WDS） is becoming one of the hot subjects in the text summarization field due to the rapidly increasing number of documents on Web. However, WDS is different from traditional text summarization because it processes hyperlinked texts. This paper first analyses the features of Web documents, then gives a definition for WDS, and finally presents an algorithm for WDS based on sentences extraction. Each sentence＇s weight is a weighted sum of words＇ weight and its sentence-structure＇s weight. The former weight is adjusted by document class tree graph and the latter weight considers both the Web formats and hyperlink attributes. The weight proportion of words and structures is learned by a machine learning approach. Experiments on 1,000 Web documents show that our algorithm is feasible.

作者耿增民贾云得刘万春朱玉文

机构地区北京理工大学计算机科学技术学院

出处《中文信息学报》 CSCD 北大核心 2006年第6期54-60,108,共8页 Journal of Chinese Information Processing

基金国家部委基金资助项目(2003WL01)

关键词计算机应用中文信息处理 Web文摘文本文摘 Web文档预处理文摘后处理 computer application Chinese information processing Web document summarization automatic text summarization preprocessing of Web document postprocessing of summary

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1刘挺,王开铸.自动文摘的四种主要方法[J].情报学报,1999,18(1):10-19. 被引量：55
2Wai Lam,Kei Shiu Ho.FIDS:An intelligent financial Web news articles digest system[J].Systems,Man and Cybernetics,2001,31(6):753-762. 被引量：1
3J.B.Keith Humphreys.Phraserate:An html keyphrase extractor[R].Technical report,University of California,Riverside,2002. 被引量：1
4尹存燕,戴新宇,陈家骏.Internet上文本的自动摘要技术[J].计算机工程,2006,32(3):88-90. 被引量：13
5Fang Chen,Kesong Han,Guilin Chen.An approach to sentence-selection-based text summarization[A].In:Proc.2002 IEEE Region 10 Conference on Computers,Communications,Control and Power Engineering Volume 1[C].2002,489-493. 被引量：1
6Carlos N.Silla,Gisele L.Pappa,Alex A.Freitas,et al.Automatic text summarization with genetic algorithm-based attribute selection[A].In:Proceedings of 9th Ibero-American Conference on AI[C],Puebla,Mexico,2004:305-314. 被引量：1
7Yihong Gong,Xin Liu.Generic text summarization using relevance measure and Latent Semantic Analysis[EB/OL].http://portal.acm.org,2001-10-12/2006-01-10. 被引量：1
8Joel Larocca Neto,Alex A.Freitas,Celso A.A.Kaestner.Automatic text Summarization using a machine learning approach[A].In:Proceedings of 16th Brazilian Symposium on Artificial Intelligence[C].2002:205-215. 被引量：1
9Kleinberg J.Authoritative sources in a hyperlinked environment[A].In:Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms[C].New Orleans:ACM Press,1997:668-677. 被引量：1
10Khosrow Kaikhah.Automatic text summarization with neural networks[A].Second IEEE International Conference on Intelligent Systems[C].IEEE,2004:40-44. 被引量：1

二级参考文献21

1苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：25
2莫燕,王永成.中文文献摘要的自动编制[J].现代图书情报技术,1993(3):10-12. 被引量：15
3李明.从字频统计出发的中文文摘自动编写[J].现代图书情报技术,1996(3):42-45. 被引量：20
4黄纯敏吴郁莹.网络中文文件自动摘要[Z].http://www.mis.yuntech.edu.tw/～huangcm/ ublication/TANet073.pdf,. 被引量：1
5Neto J L,Freitas A A.Kaestner C A A.Automatic Text Summarization Using a Machine Learing Approach[Z].http://www.cs.kent.ac.uk /people /staff/aaf/pub_papers.dir/SBIA-2002-Joel.pdf. 被引量：1
6Radev D,Micheal A W.Topper Multi Document Centroid-based Text Summarization[C].Proceeding of the ACL-02 Demonstrations Session,Philadelphia,20002-07:112-113. 被引量：1
7杨晓兰，全国第四届计算语言学联合学术会议论文集，1997年，313页被引量：1
8刘挺，情报学报，1997年，16卷，增刊，24页被引量：1
9姚天顺，自然语言理解.一种让机器懂得人类语言的研究，1995年被引量：1
10李俊杰，博士学位论文，1995年被引量：1

共引文献65

1刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
2郭庆琳,樊孝忠.基于文本聚类和NLU的自动文摘系统的研究与实现[J].现代电力,2004,21(4):76-80. 被引量：1
3金旭,杨炳儒,菅志刚.自动文摘方法分析[J].计算机应用研究,2004,21(9):5-6. 被引量：8
4王志琪,王永成,刘传汉.论自动文摘及其分类[J].情报学报,2005,24(2):214-221. 被引量：2
5郭庆琳,樊孝忠,柳长安.文本聚类在自动文摘中的应用研究[J].计算机应用,2005,25(5):1036-1038. 被引量：4
6郭庆琳,樊孝忠,柳长安.基于文本聚类和NLU的自动文摘研究[J].北京理工大学学报,2005,25(8):705-709. 被引量：1
7尹存燕,戴新宇,陈家骏.Internet上文本的自动摘要技术[J].计算机工程,2006,32(3):88-90. 被引量：13
8董建设,任丽,周燕玲.中文自动文摘在搜索引擎中的应用[J].情报科学,2006,24(2):267-269. 被引量：2
9郭庆琳,樊孝忠,柳长安.基于文本聚类的自动文摘系统的研究与实现[J].计算机工程,2006,32(4):30-32. 被引量：8
10于海滨,秦兵,刘挺,郎君.命名实体识别和指代消解在文摘系统中的应用[J].计算机应用研究,2006,23(4):180-182. 被引量：7

同被引文献55

1钟义信.自然语言理解的全信息方法论[J].北京邮电大学学报,2004,27(4):1-12. 被引量：42
2孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176
3苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：25
4王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
5郭庆琳,樊孝忠,柳长安.基于文本聚类和NLU的自动文摘研究[J].北京理工大学学报,2005,25(8):705-709. 被引量：1
6秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
7秦兵,刘挺,陈尚林,李生.多文档文摘中句子优化选择方法研究[J].计算机研究与发展,2006,43(6):1129-1134. 被引量：13
8傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
9刘德喜,何炎祥,姬东鸿,杨华.一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA[J].中文信息学报,2006,20(6):46-53. 被引量：10
10李明.从字频统计出发的中文文摘自动编写[J].现代图书情报技术,1996(3):42-45. 被引量：20

引证文献1

1刘德喜,吴世汉,万常选.XML文本自动文摘研究综述[J].计算机应用研究,2009,26(11):4014-4018.

1安见才让.藏文搜索引擎系统中网页自动摘要的研究[J].微处理机,2010,31(5):77-80. 被引量：3
2IE窗口自动最大化[J].科技展望（幻想大王）,2006(20):19-19.
3孙卫红,菊秋芳.计算机网页制作入门[J].统计与经济,2000(2):43-44.
4谭瑛.基于文本排版格式的信息隐藏方法比较研究[J].计算机与现代化,2013(6):52-56. 被引量：8
5罗松林.Word 97中的字体兼容性[J].微电脑世界,1998(15):49-49.
6谭瑛.文本双重排版格式的信息隐藏模式研究[J].微型电脑应用,2013(9):15-17.
7大刘.快速改变图片的排版格式[J].电脑迷,2009(20):75-75.
8耿增民,刘万春,朱玉文.受限领域的自动文摘方法研究[J].北京理工大学学报,2006,26(8):712-715. 被引量：1
9寇苏玲,蔡庆生.应用于用户兴趣建模的多文本关键词抽取研究[J].计算机仿真,2007,24(2):103-105. 被引量：2
10陈晨,张璐,伍之昂.词句协同排序的自动摘要算法[J].江苏大学学报（自然科学版）,2016,37(4):443-449. 被引量：5

中文信息学报

2006年第6期

浏览历史

内容加载中请稍等...

基于Web的文摘技术研究被引量：1

参考文献11

二级参考文献21

共引文献65

同被引文献55

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Web的文摘技术研究 被引量：1

参考文献11

二级参考文献21

共引文献65

同被引文献55

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Web的文摘技术研究被引量：1