基于网页分块的正文信息提取方法被引量：13

Web information extraction based on visual block segmentation

下载PDF

导出

摘要网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。 Web pages always contain large numbers of irrelevant words and HTML tags except for informative information.This enhances the difficulties of extracting informative information from Web pages quickly.A method of extract informative information based on user's interest is proposed.The experimental results prove that this method is good universality and can obtain informative message accurately,so our approach is easy to realize.

作者黄玲陈龙

机构地区重庆邮电大学计算机科学与技术研究所

出处《计算机应用》 CSCD 北大核心 2008年第S2期326-328,共3页 journal of Computer Applications

基金重庆市自然科学基金资助项目(2007BB2454)

关键词 WEB信息抽取主题内容块网页正文信息 Web information extraction informative content block main text of Web page

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1任仲晟,薛永生.基于页面标签的Web结构化数据抽取[J].计算机科学,2007,34(10):133-136. 被引量：8
2蒲强,李鑫,刘启和,杨国纬.一种Web主题文本通用提取方法[J].计算机应用,2007,27(6):1394-1396. 被引量：5
3黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
4高军,王腾蛟,杨冬青,唐世渭.基于Ontology的Web内容二阶段半自动提取方法[J].计算机学报,2004,27(3):310-318. 被引量：18
5FU YAN,YANG DONG-QING,TANG SHI-WEI.Using XPath todiscover informative content blocks of Web pages. 3rd Interna-tional Conference on Semantics:Knowledge and Grid . 2007 被引量：1
6KANG J,CHOI J.Detecting informative Web page blocks for effi-cient information extraction using visual block segmentation. 2007 International Symposium on Information Technology Conver-gence . 2007 被引量：1
7KIMY,PARKJ,KIMT,et al.Web information extraction by HT-ML tree edit distance matching. 2007 International Conferenceon Convergence Information Technology . 2007 被引量：1
8KAYED M,CHANG C H.FiVaTech:Page-level Web data extrac-tion from template pages. Seventh IEEE International Confer-ence on Data Mining . 2007 被引量：1
9LI DONG,HUAN LIN-PENG.The ontology relation extraction forsemantic Web annotation. Eighth IEEE International Symposi-um on Cluster Computing and the Grid . 2008 被引量：1

二级参考文献37

1封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报（自然科学版）,2005,45(S1):1767-1771. 被引量：8
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3陈兰,左志宏,熊毅,孟令谦.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157. 被引量：18
4于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
5[1]Baumgartner R.,Flesca S.,Gottlob G.. Visual web information extraction with lixto. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001,119～128 被引量：1
6[2]Liu L.,Pu C., Han W.. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proceedings of the 16th International Conference on Data Engineering, California, 2000, 611～621 被引量：1
7[3]Gottlob G., Koch C.. Monadic datalog and the expressive power of languages for web Information extraction. In: Proceedings of the 21th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Wisconsin, 2002, 17～28 被引量：1
8[4]Hamer J.,Brennig M., Garcia-Molina H.. Template-based wrappers in the TSIMMIS system. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, Arizona, 1997, 532～535 被引量：1
9[5]Atzeni P., Mecca G.. Cut and paste. In: Proceedings of the 16th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Arizona, 1997, 144～153 被引量：1
10[6]Crescenzi V., Mecca G., Merialdo P.. RoadRunner: Towards automatic data extraction from large web sites. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001, 109～118 被引量：1

共引文献57

1李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
2胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
3张瑞,李石君.网上表格数据到XML的自动转换[J].计算机工程与应用,2007,43(2):190-192. 被引量：5
4卢林兰,李明.利用ontology实现的多库知识获取方法[J].计算机工程与设计,2007,28(15):3731-3733. 被引量：1
5任仲晟,薛永生.基于页面标签的Web结构化数据抽取[J].计算机科学,2007,34(10):133-136. 被引量：8
6李纲,戴强斌.WNBTE网页正文抽取方法研究[J].情报科学,2008,26(3):333-336. 被引量：5
7白似雪,刘华斌.基于页面分块模型的PageRank算法研究[J].南昌大学学报（工科版）,2008,30(2):179-183. 被引量：4
8孙桂煌,刘发升.基于正文特征的网页正文信息提取方法[J].现代计算机,2008,14(9):34-38. 被引量：5
9刘辉,陈静玉,徐学洲.基于模板流程配置的Web信息抽取[J].计算机工程,2008,34(20):55-57. 被引量：5
10王燕,吴灏,毛天宇.基于K-中心点聚类算法的论坛信息识别技术研究[J].计算机工程与设计,2009,30(1):210-212. 被引量：3

同被引文献88

1李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
2周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
3张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233. 被引量：376
4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
5王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
6李向阳,陆建江,张亚非.基于竞争分类的Web信息抽取[J].电子学报,2004,32(11):1915-1917. 被引量：2
7卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16
8张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
9于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
10杜义华,焦文彬.互联网中XML网页的链接解析与信息采集[J].计算机系统应用,2005,14(7):24-26. 被引量：2

引证文献13

1胡凌云,胡桂兰,徐勇,李龙澍.基于Web的新闻文本分类技术的研究[J].安徽大学学报（自然科学版）,2010,34(6):66-70. 被引量：7
2常红要,朱征宇,陈烨,张鹏,曾丽芳.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计,2010,31(24):5187-5191. 被引量：15
3胥桂仙,向春丞,翁彧,赵小兵,杨国胜.基于栏目的藏文网页文本自动分类方法[J].中文信息学报,2011,25(4):20-23. 被引量：7
4段晓丽,王宇,谷静,刘玮楠.基于正文特征及网页结构的主题网页信息抽取[J].计算机工程与应用,2012,48(30):151-156. 被引量：10
5申晨,周辉.基于区域分块的微内容类网页正文提取技术[J].海南大学学报（自然科学版）,2013,31(1):31-36. 被引量：2
6陈雪,梁永全,赵相彬.改进的基于本体的Web信息抽取[J].计算机应用与软件,2013,30(7):14-16. 被引量：6
7周建,汤进,罗斌.基于DOM结构树的网页正文信息分段方法[J].计算机与现代化,2013(10):229-232. 被引量：2
8罗永莲,赵昌垣.突发事件新闻标题与正文提取方法[J].计算机应用,2014,34(10):2865-2868. 被引量：10
9余伟,陶皖,徐京,刘成满.基于领域本体的微博用户信息抽取方法[J].长江大学学报（自科版）（上旬）,2015,12(4):36-40. 被引量：1
10张兵,汤进,罗斌.基于超链接和DOM结构树的网页标题实时抽取方法[J].计算机与现代化,2015(8):84-88. 被引量：2

二级引证文献65

1程乔,王映华,李冉,李友建.基于互联网+舆情数据发掘支撑网络优化新思路的研究[J].广西通信技术,2020(1):1-7.
2陈建国.基于Web结构的网站新闻采集系统的设计与实现[J].井冈山大学学报（自然科学版）,2012,33(2):54-57. 被引量：3
3胡晟.基于网络爬虫的Web挖掘应用[J].软件,2012,33(7):145-147. 被引量：8
4胡晟,季志远,程晓荣.基于数据挖掘的主题种子站点提取器的研究[J].软件,2013,34(2):56-57. 被引量：6
5薛春香,张玉芳.面向新闻领域的中文文本分类研究综述[J].图书情报工作,2013,57(14):134-139. 被引量：24
6肖毅,张林,聂笑一.基于WEB挖掘的网络爬虫设计与实现[J].计算机系统应用,2013,22(9):60-63. 被引量：9
7周建,汤进,罗斌.基于DOM结构树的网页正文信息分段方法[J].计算机与现代化,2013(10):229-232. 被引量：2
8杨一柳.基于模板的网页信息抽取技术研究[J].渤海大学学报（自然科学版）,2013,34(3):320-322. 被引量：3
9向程冠,熊世桓.一种基于特征树的Web碎片信息抽取算法[J].兰州理工大学学报,2014,40(1):104-107. 被引量：3
10李湘东,巴志超,黄莉.基于加权隐含狄利克雷分配模型的新闻话题挖掘方法[J].计算机应用,2014,34(5):1354-1359. 被引量：14

1本刊重要通知[J].电力系统自动化,2005,29(19):89-89.
2吕铁强,于满泉,孟庆发,周立德.基于网页分块的个性化信息采集的研究与设计[J].微电子学与计算机,2005,22(10):120-123. 被引量：10
3飞雪.醒目！善用重要HTML标记增强网页各种功能[J].大众软件,2002(11):69-71.
4龙溪薇薇,董爱时（图）.看不见的“邮”戏规则[J].钱经,2009(5):116-117.
5升技AN-M2HD主板[J].电脑自做,2007(11):85-86.
6龙薇薇.看不见的“邮”戏规则[J].现代计算机（中旬刊）,2009(9):139-140.
7闫蓉,高光来.利用主题内容排序的伪相关反馈[J].计算机科学与探索,2017,11(5):814-821.
8范意兴,郭岩,李希鹏,赵岭,刘悦,俞晓明,程学旗.一种基于网页块特征的多级网页聚类方法[J].山东大学学报（理学版）,2015,50(7):1-8. 被引量：1
9赵俊环.如何保护Word文档隐私(下)[J].农村青少年科学探究,2011(3):43-43.
10高建中.人与计算机的未来[J].新电脑,2006,30(12):194-196.

计算机应用

2008年第S2期

浏览历史

内容加载中请稍等...

基于网页分块的正文信息提取方法被引量：13

参考文献9

二级参考文献37

共引文献57

同被引文献88

引证文献13

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

基于网页分块的正文信息提取方法 被引量：13

参考文献9

二级参考文献37

共引文献57

同被引文献88

引证文献13

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

基于网页分块的正文信息提取方法被引量：13