网页信息自动抽取技术的研究被引量：4

Research on automatic extraction technology of Web information

下载PDF

导出

摘要在网络舆情分析中,经常要从大量的网页信息中抽取出有用的数据。但一般的网页信息抽取技术都是基于对HTML文档的分析。本文提出网页信息自动抽取的方法,可以滤除网页噪声,快速准确地获取所需要的网页信息。该方法首先将HTML转换为结构化的XML文档,然后结合DOM4J和XPath语言建立网页解析模板库,最后根据模板的抽取规则对网页信息进行抽取。实验证明,该方法具有较高的回召率和查准率。 In online public opinion analysis,it was needed to extract valuable information from large amount of Web source.But the common way of Web information extraction technology was based on the analysis of HTML documents.This paper proposed automatic extraction technology of Web information,it could eliminate noisy content,extract information efficiently.This method transformed HTML into structured XML model,then built Web pages parser template library by DOM4J and XPath,finally extracted the Web information according to rules of the parser template.Result showed that this method was high with recall and precision with retrieving.

作者胡少荣孟嗣仪刘云张彦超丁飞

机构地区北京交通大学网络舆论安全研究中心

出处《铁路计算机应用》 2010年第9期37-40,共4页 Railway Computer Application

基金国家自然科学基金资助项目(60972012) 教育部培育基金项目(707006) 教育部哲学人文社会科学研究重大课题(08WL1101) 铁道部科技研究开发计划重点课题(2008X019) 北京市教育委员会学科建设与研究生建设项目资助(JXKJD20090001) 通信与信息系统北京市重点实验室资助项目(JSYJD20090001)

关键词自动抽取网页信息解析模板 XPATH 网络舆情 automatic extraction Web information parser template XPath online public opinion

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
2王昕,熊光楞.基于本体的设计原理信息提取[J].计算机辅助设计与图形学学报,2002,14(5):429-432. 被引量：11
3王煜,徐建民.基于RBF神经网络和决策树的文本分类方法[J].计算机工程与应用,2005,41(14):175-178. 被引量：4
4Liu B.,Grossman R.,Zhai YH,Mining Data Records inWeb Pages[C].Proceedings of the Knowledge Discoveray and Data Mining(KDD)2003:601. 被引量：1
5Laender A H F,Ribeiro-Neto B A,Da Silva A S,et al.A Brief Survey of Web Data Extraction Tools[J].SIGMOD Record,2002,31(2):84. 被引量：1

二级参考文献21

1马亮,陈群秀,蔡莲红.一种改进的自适应文本信息过滤模型[J].计算机研究与发展,2005,42(1):79-84. 被引量：18
2林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
3钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量：12
4YiMing Yang. An Evaluation of Statitical Approches to Text Categorizaiton[J].Information retrieval, 1999; 1: 69～90. 被引量：1
5Qiang Shen,Alexios chouchoulas. A rough-fuzzy approach for generating classification rules[J].Pattern Recogonition,2002;35:2425～2438. 被引量：1
6Lili Diao,Keyyun Hu,Yuchan Lu et al. Simple Decision Trees with Bayesian Learning for Text Categorization[C].In:Proceedings of the 4th World Congress on Intelligent Control and Automation,IEEE Robotics and Automation Society,Shanghai,China,2002:321～325. 被引量：1
7A P Engelbrecht. A New Pruning Heuristic Based on Variance Analysis of Sensitivity Information[J].IEEE Trans on Neural Networks,2001; 12(6): 1386～1399. 被引量：1
8N Kwak,C-h choi.Input Feature Selection for Classification Problem[J].IEEE Trans on Neural Networks,2002;13(1):143～159. 被引量：1
9Xiuju,Lipo Wang. Rule Extraction Based on Data Dimensionality Reduction Using RBF Neural Networks[C].In:Proceedings of the 8th International Conference on Neural Information Processing,ICONIP2001,Shanghai ,China,2001; 1:149～153. 被引量：1
10Yi Liu, Rong Jin, Joyce Y. A maximum coherence model for dictionary-based cross-language information retrieval[A]. Proceedings of the 28^th Annual International ACM SIGIR Conference[C]. Salvador, Brazil: ACM Press, 2005. 536-543. 被引量：1

共引文献16

1田春虎.国内语义Web研究综述[J].情报学报,2005,24(2):243-249. 被引量：37
2杨健,肖乾.基于本体的产品设计知识表达[J].现代机械,2005(3):54-55. 被引量：3
3单鸿波.现代产品设计理论的相关研究现状综述[J].东华大学学报（自然科学版）,2006,32(5):118-124. 被引量：13
4胡思康,曹元大.Web网页知识获取技术[J].北京理工大学学报,2006,26(12):1065-1068. 被引量：4
5陈珂,殷凡.中文自动摘要综述[J].福建电脑,2007,23(2):34-35.
6孙卫祥,陈进,吴立伟,伍星.基于PCA与决策树的转子故障诊断[J].振动与冲击,2007,26(3):72-74. 被引量：11
7王静,姚勇,刘志镜.基于广义隐马尔可夫模型的网页信息抽取方法[J].山东大学学报（理学版）,2007,42(11):49-52. 被引量：3
8强永乾,郭佑民,张少娟,王秋萍,牛刚.基于数据挖掘技术构建孤立性肺结节诊断模型[J].中国医学影像技术,2008,24(3):438-442. 被引量：1
9林泽斐.本体概念模型构建理论研究综述[J].情报探索,2009(5):30-33. 被引量：16
10祝伟华,卢熠,刘斌斌.基于HMM的Web信息抽取算法的研究与应用[J].计算机科学,2010,37(2):203-206. 被引量：12

同被引文献45

1郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
2张曌夏国平李雪峰.基于案例推理的电子商务个性化推荐系统.计算机工程,2007,33(20):187-189. 被引量：9
3国家知识产权局.审查指南[M].北京:知识产权出版社.2006, 被引量：6
4佟晓筠,宋国龙,刘强,张俐,姜伟.中文分词及词性标注一体化模型研究[J].计算机科学,2007,34(9):174-175. 被引量：10
5中国互联网信息中心.第30次中国互联网络发展状况统计报告[R].2012. 被引量：8
6张华平.NLPIR汉语分词系统[EB/OL].[2013-11-11].http://ictelas.nlpir.org/. 被引量：5
7日立专利信息检索系统Digi-patent/s [EB/OL]. [2014-01-06]. http://www.digi-patent-s.com.cn. 被引量：1
8中华人民共和国国家标准.GB/T13715-92,信息处理用现代汉语分词规范[S]. . 被引量：1
9Benn R,Konsynski F,Warrn M.information partner ship[J].Havard Business Review,1995.9. 被引量：1
10Ounis I,Amati G.Terrier Information Retrieval Platform[J].Lecture Notes in Computer Science 3405,2007,11:517-519. 被引量：1

引证文献4

1王麒.公共信息平台技术应用研究[J].贵州师范大学学报（自然科学版）,2014,32(3):77-83.
2张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
3孙莹,徐琳.基于范例推理(CBR)的旅游电子商务网站个性化服务研究[J].内蒙古师范大学学报（自然科学汉文版）,2016,45(1):80-83. 被引量：4
4E CHANG.Implementation of a weblog extraction system with an improved template extraction technique[J].Chinese Journal of Library and Information Science,2013(1):52-63.

二级引证文献13

1蔡君,张淋辉.通向三代移动通信的桥梁：GPRS技术及其解决方案概览[J].互联网世界,2000(4):26-31.
2赵越,李红.极大似然优化EM算法的汉语分词认知模型[J].科技通报,2016,32(4):178-181. 被引量：2
3石翠.专利文献语料库建设问题分析与解决方案[J].辽宁行政学院学报,2016,18(5):70-74.
4李永军.基于ASP.NET的电子商务网站设计及实现[J].电脑编程技巧与维护,2017(11):80-82. 被引量：1
5叶建龙.基于Mahout的个性化电子商务推荐系统研究[J].信息通信,2017,30(10):129-130. 被引量：4
6倪维健,孙浩浩,刘彤,曾庆田.面向领域文献的无监督中文分词自动优化方法[J].数据分析与知识发现,2018,2(2):96-104. 被引量：9
7俞琰,赵乃瑄.基于通用词与术语部件的专利术语抽取[J].情报学报,2018,37(7):742-752. 被引量：14
8俞琰,赵乃瑄.融入术语知识的专利主题发现方法[J].图书情报工作,2018,62(21):118-126. 被引量：3
9杨云,李文如.基于Mahout的图书推荐系统研究[J].重庆科技学院学报（自然科学版）,2019,21(4):98-102. 被引量：4
10俞琰,陈磊,姜金德,赵乃瑄.基于依存句法分析的中文专利候选术语选取研究[J].图书情报工作,2019,63(18):109-118. 被引量：11

1李舒晨,刘云,李勇.网络舆情分析中网页信息预处理方案的实现[J].电脑与电信,2008(10):30-33. 被引量：2
2李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853-859. 被引量：3
3黄伟,刘娟.一种基于DOM树的HTML转换为XML的方法[J].电脑知识与技术,2006(7):64-65. 被引量：1
4赵良臻,王波兴.协同仿真平台中仿真组件的封装技术研究[J].计算机工程,2014,40(9):66-70. 被引量：3
5孙楠,张华伟.一种新的用于数据挖掘工具的网页净化算法[J].郑州轻工业学院学报（自然科学版）,2011,26(3):85-87.
6王春枝,纪利群.利用XML实现异构数据库间互访[J].微型机与应用,2002,21(8):13-14. 被引量：25
7彭媛媛,许建潮.基于xml的Deep Web信息自动抽取技术的研究[J].科技信息,2009(33):85-85.
8周亚.2001—2008年国内元数据自动抽取研究综述[J].科技情报开发与经济,2009,19(23):140-142. 被引量：3
9曹风华.XSLT在XML向HTML转换中的作用[J].现代计算机,2010,16(3):102-104. 被引量：2
10储赟.面向源代码软件设计模式自动抽取技术的研究[J].电子世界,2013(24):9-10.

铁路计算机应用

2010年第9期

浏览历史

内容加载中请稍等...

网页信息自动抽取技术的研究被引量：4

参考文献5

二级参考文献21

共引文献16

同被引文献45

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

网页信息自动抽取技术的研究 被引量：4

参考文献5

二级参考文献21

共引文献16

同被引文献45

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

网页信息自动抽取技术的研究被引量：4