基于分块和统计相结合的新闻正文抽取被引量：4

Text Extraction from News Webpage Based on Segmentation and Statistics

导出

摘要本文提出一种结合网页分块与统计的方法来抽取新闻类网页中的正文。首先,在网页解析的基础上根据标签信息对网页进行分块处理,并计算出每一个内容块的实际长度;其次,在得到内容块的长度集合后,计算这些内容块长度的均值,同时利用方差能反映一组数据的波动大小的特性,按内容块长度降序排列并依次计算去掉最大内容块后的方差变化情况,寻找最有可能的正文内容块;最后随机选取了一些新闻网页进行测试,结果显示准确率可达96%,充分证明了该方法的有效性。 This paper proposes a method of using Webpage segmentation and statistics to extract the text from news Webpage. Firstly, based on the parsing of the Webpage, the paper segments the Webpage according to HTML tags, and calculates the actual length of each content block. Secondly, the paper calculates the mean value of the length of the content block after obtaining the length set of the content block. Meanwhile, by the use of the charac- teristics of the variance which reflect the fluctuation of the data, the paper calculates the change of the variance after taking away the largest block in a descending order iteratively to find the promising content block. Finally, the paper selects some news Webpages randomly for test. The result shows the precision can reach 96% , which confirms the validity of the method fully.

作者李烯徐朝军

机构地区南京师范大学教育科学院

出处《情报理论与实践》 CSSCI 北大核心 2010年第1期117-120,共4页 Information Studies:Theory & Application

基金全国教育科学"十一五"规划2009年度教育部青年专项课题"网络课程使用现状自动量化评价系统研究"的成果之一项目编号:ECA090441

关键词数据挖掘网页分块数学期望正文抽取 data mining Webpage segmentation mathematical expectation text extraction

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1胡静,蒋外文,朱华.Web文本挖掘中数据预处理技术研究[J].现代计算机,2009,15(3):48-51. 被引量：13
2邹腊梅,肖基毅,龚向坚.Web文本挖掘技术研究[J].情报杂志,2007,26(2):53-55. 被引量：14
3钟艳花,余伟红,余永权.Web文本挖掘系统及其关键技术研究[J].计算机工程与应用,2003,39(34):167-169. 被引量：11
4李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：178
5LiuBing.Web数据挖掘[M].北京:清华大学出版社,2009. 被引量：14
6HSU C-H. Initial results on wrapping semi-structured Web pages with finite-State transducers and contextual rules [ C ]//Workshop on AI and Information Integration, in conjunction with the 15'th National Conference on Artificial Intelligence (AAAI- 98), Madison, Wisconsin, 1998. 被引量：1
7MUSLEA I, MINTON S, KNOBLOCK C. STALKER: learning extraction rules for semi-structured, Web-based information sources [ C ]//Workshop on AI and Information Integration, in conjunction with the 15'th National Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, 1998. 被引量：1
8朱永盛,武港山.基于Web的新闻信息抽取[J].计算机工程,2006,32(10):74-76. 被引量：11
9李纲,戴强斌.WNBTE网页正文抽取方法研究[J].情报科学,2008,26(3):333-336. 被引量：5
10赵文唐建雄高庆锋.基于统计的中文网页正文抽取的研究.电脑知识与技术,2008,1(1):120-123. 被引量：1

二级参考文献80

1苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3金博,史彦军,滕弘飞,艾景波.自动文摘技术及应用[J].计算机应用研究,2004,21(12):13-15. 被引量：4
4和亚丽,陈立潮.Web文本挖掘中的特征选取方法研究[J].计算机工程,2005,31(5):181-182. 被引量：14
5于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
6许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24
7Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing Communications of the ACM,1975,18(5). 被引量：1
8Yang Yand and Prederson J.O. A Comparative Study on Feature Selection in Text Categorization. In Proc.of ICML 97,412-420. 被引量：1
9Chakrabarti S, Dom B E, Kumar S R, et al. Mining the Web's Link Structure. Computer,1999,32(8). 被引量：1
10JiaweiHan,DataMiningConceptsandTechniques.北京:机械工业出版社.2005. 被引量：1

共引文献353

1沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
2林昌平,郑皎凌.基于DOM规范的网页分析技术研究[J].成都信息工程学院学报,2007,22(z1):113-117. 被引量：2
3赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
4王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
5孙辉,陈晓云,马志新.基于语句-词条矩阵的聚簇式动态增长聚类算法[J].清华大学学报（自然科学版）,2005,45(S1):1814-1817. 被引量：1
6徐宏斌,王燕.一种改进的静态取证数据挖掘算法[J].计算机时代,2009(4):7-8.
7叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
8岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
9张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
10李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.

同被引文献29

1胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
2李书宁.基于微格式的信息组织与处理框架[J].图书情报工作,2007,51(8):35-37. 被引量：11
3A.R0bertSon.Linux-HA heartbeat system design[M].The 4th Annual Linux Showcase&Conference,Atlanta,Georgia,USA,2000. 被引量：1
4沈金河,李秋霞.Linux企业集群[M].中国水利水电出版社,2007:131-135. 被引量：1
5周英飚.通用无共享数据库集群研究与实现[J].计算机工程与应用,2007,43(32):156-160. 被引量：5
6曹卓文,杨晓江.Edupage:一个基于本体的基础教育网站搜索引擎[J].中国远程教育,2008(9):67-70. 被引量：1
7闫晓弟,邵晶,周奇,耶健.电子资源利用统计网关系统的设计与实现[J].现代图书情报技术,2008(8):97-100. 被引量：18
8钱爱兵.一种基于统计的中文网页正文抽取方法[J].情报学报,2009,28(2):187-194. 被引量：3
9胡俊坤,王浩,杨静.一种基于决策树的新闻内容抽取方法[J].合肥工业大学学报（自然科学版）,2009,32(6):774-777. 被引量：2
10邱江涛,唐常杰,李川,朱军.基于块分布的新闻网页内容提取[J].吉林大学学报（工学版）,2009,39(5):1326-1330. 被引量：4

引证文献4

1柳刚,吴德萍.Web Proxy在高校图书馆数字资源中的应用[J].电脑编程技巧与维护,2010(22):100-102.
2徐朝军,宁馨瑞.信息抽取技术在移动学习资源建设中的应用研究[J].电化教育研究,2018,39(3):90-95. 被引量：9
3廖建军.基于标签样式和密度模型的网页正文自动抽取[J].情报科学,2018,36(7):123-129. 被引量：3
4何春辉,王孟然.改进的中文静态网页新闻正文自动抽取算法[J].东莞理工学院学报,2018,25(5):46-50. 被引量：2

二级引证文献14

1李春艳,张纯然.基于微信公众平台的移动学习资源的设计——以《课件制作工具》课程为例[J].办公自动化,2018,23(19):36-39. 被引量：6
2胡力文.高职动画课程移动学习资源设计初探[J].信息与电脑,2019,0(17):228-230.
3陈钰华,尹晶海,陈瑜.基于Android的交互式课件的设计与实现[J].电脑知识与技术,2019,15(11X):45-47.
4孟令玺,刘英伟,孟令威.基于SECI模型的移动学习资源交互性建设[J].电脑知识与技术,2019,15(12X):4-5.
5黄颖杰,朱静,杨晋昌.常见神经网络模型在古诗词自动生成中的应用与对比分析[J].东莞理工学院学报,2020,27(5):55-60. 被引量：2
6王茹皓,朱静,杨晋昌,黄颖杰.融合门控注意力机制的基于生成对抗网络模型的新闻评论自动生成方法研究[J].科教文汇,2020(29):89-90. 被引量：1
7陈壮,葛斌.一种改进混合文本密度的网页信息提取方法[J].佳木斯大学学报（自然科学版）,2022,40(1):41-44. 被引量：1
8王小迁.基于SOAP的英语多媒体教学资源共享平台设计[J].微型电脑应用,2022,38(2):169-171. 被引量：3
9翁彬月,秦永彬,黄瑞章,任丽娜,田悦霖.NEMTF:基于多维度文本特征的新闻网页信息提取方法[J].计算机应用研究,2022,39(4):1043-1048.
10呼媛玲.基于WordSmith4.0语料库的英文词汇结构信息抽取方法[J].自动化技术与应用,2022,41(5):84-87. 被引量：1

1邵大伟.社会价值和娱乐性的平衡——湖南卫视《天天向上》栏目分析[J].新闻传播,2010(1):94-94. 被引量：2
2邵文杰.复本问题(下)[J].中国图书馆学报,1982,10(2):43-50. 被引量：3
3梁前文.关于我国科研人员情报利用时间的调查与分析[J].情报科学,1981,2(2):36-42. 被引量：5
4何永葱.内江师院(专)学报自然科学发表论文的统计分析[J].内江师范学院学报,2001,16(2):84-86. 被引量：1
5陈华友,侯定丕.基于预测有效度的组合预测方法冗余信息的判定[J].数学的实践与认识,2004,34(1):56-64. 被引量：8
6赵琳琳,梁仁红.八分钟营造出的纪录世界——谈《天下大观》的制作播出[J].电视研究,2009(11):29-30.
7闫肖锋.《新周刊》编辑大法(上)--关于选题、视角和立场[J].青年记者,2008(3):50-53. 被引量：1
8陈敬文,彭哲.基于CPN网络的Web正文抽取技术研究[J].现代图书情报技术,2008(11):65-71. 被引量：2
9高美芳,徐青.企业档案两种分类方法比较[J].浙江档案,1993,0(1):40-40.
10王盼盼,于腾飞.吉林大学考古与艺术博物馆观众短时记忆调查报告[J].文物鉴定与鉴赏,2017(5):104-105. 被引量：2

情报理论与实践

2010年第1期

浏览历史

内容加载中请稍等...

基于分块和统计相结合的新闻正文抽取被引量：4

参考文献14

二级参考文献80

共引文献353

同被引文献29

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于分块和统计相结合的新闻正文抽取 被引量：4

参考文献14

二级参考文献80

共引文献353

同被引文献29

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于分块和统计相结合的新闻正文抽取被引量：4