基于树比较的Web页面主题信息抽取

Topic information extraction from Web pages based on tree comparison

下载PDF

导出

摘要为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内主要的一些网站页面进行的抽取检测表明,该方法可以准确、有效地抽取Web页面的主题信息。 In order to automatically extract Web page information from Internet that contains magnanimous information, this paper presented an approach based on tree comparison. This approach compared tree built from the target page with that ones built from its similar pages to simplify the target page. Extraction rules were generated on this basis, and then we used the rules to extract topic information from the target Web page. Experiment result shows this extraction method is precise and efficient.

作者朱梦麟李光耀周毅敏

机构地区同济大学电子与信息工程学院

出处《微型机与应用》 2011年第19期67-69,共3页 Microcomputer & Its Applications

基金上海市科委国际合作项目(10510712500)

关键词信息抽取相似页面树比较抽取规则 information extraction similar pages tree comparison extraction rules

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1张彦超,刘云,李勇,沈波.基于自动生成模板的Web信息抽取技术[J].北京交通大学学报,2009,33(5):40-45. 被引量：13
2祝伟华,卢熠,刘斌斌.基于HMM的Web信息抽取算法的研究与应用[J].计算机科学,2010,37(2):203-206. 被引量：12
3DALVI N, BOHANNON P, SHA F. An approach based on a probabilistic tree-Edit model [A]. Proceedings of the 35th SIGMOD International Conference on Management of Data (SIGMOD'09)[C]. New York : ACM Press,2009:335-348. 被引量：1
4Wang Jiying, FRED H. LOCHOVSKY.Data-rich section extraction from HTML pages [A]. Proc 3rd International Conference on Web Information System Engineering (WISE' 02)[C].Singapore : IEEE Computer Society Press, 2002: 1-10. 被引量：1

二级参考文献19

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
4钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量：12
5钟敏娟,郝谦,刘云中.基于多模板隐马尔可夫模型的文本信息抽取算法[J].计算机工程,2006,32(2):203-205. 被引量：9
6王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
7孔令波,唐世渭,杨冬青,王腾蛟,高军.XML数据的查询技术[J].软件学报,2007,18(6):1400-1418. 被引量：72
8Wang Jiying, Lochovsky F H. Data-Rich Section Extraction from HTML pages[C]//Proc. 34 Int. Conf. on Web Info. SystEng (WISE. 02). Singapore: IEEE Computer Society Press, 2002 : 313 - 322. 被引量：1
9Ashraf F, yzyer T, Alhajj R. Employing Clustering Techniques for Automatic Information Extraction from HTML Documents[J]. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on,2008,38 (5) :660 - 673. 被引量：1
10Arnaud Le Hors, Ian Jacobs. HTML 4.01 Specification [EB/OL].(1999)[2008]. http://www. w3.org/TR/ REC - html40/. 被引量：1

共引文献23

1廉捷,刘云.网络舆情中的信息预处理与自动摘要算法[J].北京交通大学学报,2010,34(5):94-99. 被引量：8
2陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
3廉捷,周欣,曹伟,刘云.新浪微博数据挖掘方案[J].清华大学学报（自然科学版）,2011,51(10):1300-1305. 被引量：120
4李荣,胡志军,郑家恒.基于遗传算法和隐马尔可夫模型的Web信息抽取的改进[J].计算机科学,2012,39(3):196-199. 被引量：8
5张冬梅,陈钊,陈剑.基于改进DSE算法的web信息抽取[J].数字技术与应用,2012,30(3):171-173.
6邹丽娜,凌捷.一种基于特征提取的二级文本分类方法[J].广东工业大学学报,2012,29(4):65-68. 被引量：1
7王静,黄地龙.基于数据挖掘的微博人气用户特征分析与研究[J].数字通信,2013,40(1):17-18. 被引量：5
8石磊.SINA微博中网络水军分类模型建立[J].中国电子商务,2013(21):52-53.
9顾韵华,高原,高宝,杜杰.基于模板和领域本体的Deep Web信息抽取研究[J].计算机工程与设计,2014,35(1):327-332. 被引量：16
10白晓雷,黄广君,段建辉.一种基于BP神经网络的关键词抽取方法[J].合肥工业大学学报（自然科学版）,2014,37(7):808-811. 被引量：4

1张宗福.一种基于LCS的微博相似页面检测方法[J].集成技术,2013,2(3):5-9.
2邓箴.基于DOM的Web信息抽取方法[J].计算机光盘软件与应用,2010(10):18-18. 被引量：1
3贡正仙,朱巧明,李培峰.基于相似页面的Web信息抽取系统的实现[J].计算机应用,2006,26(8):1983-1986. 被引量：3
4Jing.快速揪出相似网页[J].网友世界,2006(14):28-28.
5王吉林,舒江波,李勇,杨森.分布式Web主题信息抽取的框架探析[J].情报理论与实践,2014,37(12):117-122. 被引量：2
6欧阳柳波,杨柱,易显.基于DIV标签树的网页主题信息抽取方法[J].计算机系统应用,2010,19(7):193-196. 被引量：1
7谢方立,周国民,王健.基于节点类型标注的网页主题信息抽取方法[J].计算机科学,2016,43(S2):31-34. 被引量：4
8刘艳敏,刘飚,封化民,宋国森,方勇.Web页面主题信息抽取研究与实现[J].计算机工程与应用,2006,42(21):146-148. 被引量：11
9孟令恩,李颖,何彦青,屈鹏,王惠临.基于语义角色标注的专利主题提取研究[J].图书情报工作,2014,58(19):19-24. 被引量：4
10石磊,姚瑶.马尔可夫预测模型中转移概率矩阵的压缩与应用[J].计算机应用,2007,27(11):2746-2749. 被引量：3

微型机与应用

2011年第19期

浏览历史

内容加载中请稍等...

基于树比较的Web页面主题信息抽取

参考文献4

二级参考文献19

共引文献23

相关作者

相关机构

相关主题

浏览历史