基于自动生成模板的Web信息抽取技术被引量：13

Study of Web Information Extraction Technology Based on Automatically Generated Template

下载PDF

导出

摘要在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率. In online public opinion analysis, the people need for automatic tools to find the exact information among the magnanimous information sources for further analysis. This paper presented an approach based on automatically generated template to eliminate noise content and extract information from web pages efficiently. The web page was translated into Document Object Model, and then the extraction rules according to the user demand were established. Based on the above process, the templates of web pages were automatically generated. Finally, these templates extraction rules were employed to directly extract information. Experimental result shows this extraction method which has a high recall and precision is reasonable and efficient.

作者张彦超刘云李勇沈波

机构地区北京交通大学电子信息工程学院

出处《北京交通大学学报》 CAS CSCD 北大核心 2009年第5期40-45,共6页 JOURNAL OF BEIJING JIAOTONG UNIVERSITY

基金教育部高等学校科技创新工程重大项目(707006) 通信与信息系统北京市重点实验室资助项目(35304536) 北京市教育人建项目专项资助(W0810040)

关键词信息抽取模板文档对象模型 XPATH 网络舆情 information extraction template document object model XPath online public opinion

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3Wang Jiying, Lochovsky F H. Data-Rich Section Extraction from HTML pages[C]//Proc. 34 Int. Conf. on Web Info. SystEng (WISE. 02). Singapore: IEEE Computer Society Press, 2002 : 313 - 322. 被引量：1
4杨少华,林海略,韩燕波.针对模板生成网页的一种数据自动抽取方法(英文)[J].软件学报,2008,19(2):209-223. 被引量：45
5Ashraf F, yzyer T, Alhajj R. Employing Clustering Techniques for Automatic Information Extraction from HTML Documents[J]. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on,2008,38 (5) :660 - 673. 被引量：1
6李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
7Arnaud Le Hors, Ian Jacobs. HTML 4.01 Specification [EB/OL].(1999)[2008]. http://www. w3.org/TR/ REC - html40/. 被引量：1
8Anders Berglund, Scott Boag, Don Chamberlin[EB/OL]. [2007](2008). XML Path Language (XPath) 2.0. http: // www. w3. org/TR/xpath20/. 被引量：1
9孔令波,唐世渭,杨冬青,王腾蛟,高军.XML数据的查询技术[J].软件学报,2007,18(6):1400-1418. 被引量：72

二级参考文献49

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：22
2王静,孟小峰,王珊.基于区域划分的XML结构连接[J].软件学报,2004,15(5):720-729. 被引量：35
3张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
4常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
5孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176
6万常选,刘云生,徐升华,刘喜平,林大海.基于区间编码的XML索引结构的有效结构连接[J].计算机学报,2005,28(1):113-127. 被引量：38
7王静,孟小峰,王宇,王珊.以目标节点为导向的XML路径查询处理[J].软件学报,2005,16(5):827-837. 被引量：21
8孟小峰,王宇,王小锋.XML查询优化研究[J].软件学报,2006,17(10):2069-2086. 被引量：44
9Shian-Hua Lin, Jan-Ming Ho. Discovering informative content blocks from Web documents. In: SIGKDD, 2002 被引量：1
10Soumen Chakrabarti, Mukul M. Joshi and Vivek B. Tawde.Enhanced topic distillation using text, markup tags, and hyperlinks. In: SIGIR, 2001 被引量：1

共引文献305

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
5雷庆,吴扬扬,缑锦.从复杂XML文档中抽取目标关系片段的方法[J].郑州大学学报（理学版）,2009,41(1):40-43.
6孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
7郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
8谌志群,周其力.基于综合语义的XML文档相似度计算方法[J].杭州电子科技大学学报（自然科学版）,2009,29(3):64-67.
9陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97. 被引量：1
10王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8

同被引文献102

1张露,马丽.数据库设计[J].安阳工学院学报,2007,6(4):76-79. 被引量：34
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
5徐慧,窦子辉,杨林,陈雪.面向终端用户的网页过滤模板动态生成技术研究[J].计算机科学,2012,39(S2):90-93. 被引量：2
6张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
7杨建武,陈晓鸥.基于倒排索引的文本相似搜索[J].计算机工程,2005,31(5):1-3. 被引量：4
8周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
9张健,欧红.应用正则式抽取Google网页内容[J].现代图书情报技术,2005(9):50-53. 被引量：6
10赵枫,苏惠香.国内门户网站发展过程分析[J].现代情报,2005,25(12):69-72. 被引量：10

引证文献13

1廉捷,刘云.网络舆情中的信息预处理与自动摘要算法[J].北京交通大学学报,2010,34(5):94-99. 被引量：8
2陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
3朱梦麟,李光耀,周毅敏.基于树比较的Web页面主题信息抽取[J].微型机与应用,2011,30(19):67-69.
4廉捷,周欣,曹伟,刘云.新浪微博数据挖掘方案[J].清华大学学报（自然科学版）,2011,51(10):1300-1305. 被引量：120
5张冬梅,陈钊,陈剑.基于改进DSE算法的web信息抽取[J].数字技术与应用,2012,30(3):171-173.
6王静,黄地龙.基于数据挖掘的微博人气用户特征分析与研究[J].数字通信,2013,40(1):17-18. 被引量：5
7石磊.SINA微博中网络水军分类模型建立[J].中国电子商务,2013(21):52-53.
8顾韵华,高原,高宝,杜杰.基于模板和领域本体的Deep Web信息抽取研究[J].计算机工程与设计,2014,35(1):327-332. 被引量：16
9胡乃军,郭志卓,刘青,仇利克.信息发布软件系统模型[J].计算机与现代化,2015(1):61-65.
10高庆宁,吴鹏,张晶晶.基于文档对象模型与行块分布算法的网页信息抽取[J].情报理论与实践,2016,39(4):133-137. 被引量：9

二级引证文献183

1韩妍妍,何彦茹,刘培鹤,任慧,张锦圣.基于爬虫的XSS漏洞检测工具设计与实现[J].北京电子科技学院学报,2019,0(1):7-16. 被引量：1
2郭晓宇,彭浩.基于本体的网页数据抽取技术的探讨[J].中国多媒体与网络教学学报（电子版）,2020(19):4-5.
3彭静,翟英,冯爽.后缀树算法在舆情聚类中的应用[J].河北科技大学学报,2012,33(1):65-68. 被引量：1
4于洪,杨显.微博中节点影响力度量与传播路径模式研究[J].通信学报,2012,33(S1):96-102. 被引量：27
5于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
6来建梅,曹慧,马金刚.中医药领域信息抽取技术的研究与应用[J].山东科学,2011,24(6):88-91. 被引量：2
7蒋琴琴,宫哲,辛阳.基于HTML Parser的BBS信息抽取系统的设计与实现[J].自动化技术与应用,2012,31(1):32-37. 被引量：4
8张彩月.基于网页结构的WEB信息抽取系统设计[J].计算机光盘软件与应用,2012,15(6):155-157.
9张寿华,丛帅,尚开雨,孟庆武,李继民.网络舆情追踪中热点关键词的提取[J].河北大学学报（自然科学版）,2012,32(3):311-315. 被引量：9
10王晶,朱珂,汪斌强.基于信息数据分析的微博研究综述[J].计算机应用,2012,32(7):2027-2029. 被引量：21

1李宝密.基于自动生成模板的Web信息抽取技术[J].网络安全技术与应用,2016(9):56-56. 被引量：3
2刘晓平.决策树的自动生成模板[J].计算机仿真,2005,22(12):76-79.
3李智.C^＋＋宏,函数重载与模板机制[J].新浪潮,1995(6):34-35.
4李智.C++宏,函数重载与模板机制[J].电脑,1995(5):37-38. 被引量：1
5李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853-859. 被引量：4
6孙楠,张华伟.一种新的用于数据挖掘工具的网页净化算法[J].郑州轻工业学院学报（自然科学版）,2011,26(3):85-87.
7修晓文.C＋＋模板机制与软件重用[J].小型微型计算机系统,1995,16(3):17-22.
8张景雨,余雪丽,刘鹏.基于模板的知识集成研究[J].微电子学与计算机,2009,26(4):203-205.
9殷兰芳,吴舒辞,黄华军.融合网页噪声和n-gram的钓鱼网站检测算法[J].网络安全技术与应用,2015(1):85-86.
10王轶凡,陈章龙.元组容器在C++中的设计与实现[J].计算机工程与设计,2005,26(3):770-773. 被引量：1

北京交通大学学报

2009年第5期

浏览历史

内容加载中请稍等...

基于自动生成模板的Web信息抽取技术被引量：13

参考文献9

二级参考文献49

共引文献305

同被引文献102

引证文献13

二级引证文献183

相关作者

相关机构

相关主题

浏览历史

基于自动生成模板的Web信息抽取技术 被引量：13

参考文献9

二级参考文献49

共引文献305

同被引文献102

引证文献13

二级引证文献183

相关作者

相关机构

相关主题

浏览历史

基于自动生成模板的Web信息抽取技术被引量：13