基于Web页面有效信息抽取的分类方法被引量：1

Web Page Classification Method based on Effective Information Extraction

下载PDF

导出

摘要随着Internet的迅猛发展,Web上的网页数目呈现指数级的爆炸性增长趋势,在Web上检索及发现有价值的信息已成为了一项重要的任务,"噪音"的出现往往会降低基于页面处理的各种算法的效率。因此,如何删除页面的噪音,提取页面中的主要内容是Web挖掘中的重要问题。给出了抽取网页中各种分类有效的文本的具体实现。 With the Internet＇s rapid development, Web on the number of pages showing the explosive exponential growth trend. In the Web, search and discover valuable information that has become an important task. ＂Noise＂ tends to reduce the appearance of the page-based processing the efficiency of various algorithms. Therefore, how to remove noise pages, extract pages of the main contents of the Web mining in the important issues. In this paper, extract pages of the various classifications of effective concrete realization of the text.

作者王立建尹四清

机构地区中北大学电子与计算机科学技术学院中北大学软件学院

出处《电脑开发与应用》 2010年第6期71-73,共3页 Computer Development & Applications

关键词 Web有效信息信息抽取网页分类 valid information Web, information extraction, Web page classification

分类号 TP311.11 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
2胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
3Gupta S,Kaiser G,David Net al. Dom-based Content Extraction of Html Documents[C]. 12th International Conference on World Wide Web, Budapest, Hungary, 2003. 被引量：1
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5Shih L K,Karger D R. Using Urls and Table Layout for Web Classification Tasks [C]. 13th International Conference on world Wide Web, NewYork, USA, 2004 : 193-202. 被引量：1
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7蒲筱哥.基于Web的信息抽取技术研究综述[J].现代情报,2007,27(10):215-219. 被引量：18

二级参考文献75

1许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
2李向阳,苗壮.自由文本信息抽取技术[J].情报科学,2004,22(7):815-821. 被引量：23
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
5崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量：12
6邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
7吴振慧.Web信息抽取的研究[J].电脑知识与技术,2006(12):21-21. 被引量：1
8O Buyukkokten, H Garcia-Molina, A Paepcke. Accordion summarization for end-game browsing on PDAs and cellular phones. In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York: ACM Press, 2001. 213～220 被引量：1
9Wang Tengjiao, Tang Shiwei, Yang Dongqing, et al. COMIIX:Towards effective WEB information extraction, integration and query answering. In: Proc of SIGMOD' 02. New York: ACM Press, 2002. 620 被引量：1
10Liu Ling, Pu Calton, Han Wei. XWRAP: An XML-enabled wrapper construction system for Web information sources. In:Proc of the 16th Int'l Conf on Data Engineering. Washington:IEEE Computer Society Press, 2000. 611～621 被引量：1

共引文献143

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
3张永臣,孙乐,李飞,李文波,西野文人,于浩,方高林.基于Web数据的特定领域双语词典抽取[J].中文信息学报,2006,20(2):16-23. 被引量：11
4吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
5吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
6胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
7孔敬.本体学习：原理、方法与相关进展[J].情报学报,2006,25(6):657-665. 被引量：9
8章成志,苏新宁.面向信息检索的词汇知识发现[J].现代图书情报技术,2007(1):10-14. 被引量：3
9贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
10赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33

同被引文献2

1程显毅.中文信息抽取原理及应用[M]北京:科学出版社,2010. 被引量：1
2陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22

引证文献1

1张彩月.基于网页结构的WEB信息抽取系统设计[J].计算机光盘软件与应用,2012,15(6):155-157.

1刘蕴,侯艳芳.Web Form中的页面处理[J].价值工程,2012,31(9):141-142.
2王志军.通过百度首页接收邮箱通知[J].电脑迷,2011(20):78-78.
3陈宏林.为多途径出版做准备[J].微电脑世界,2003(11):20-20.
4卢小雷.【“升升”不息】 SAMSUNG CLP-775ND彩色激光打印机[J].个人电脑,2012,18(4):18-19.
5顾嘉立.XPS文档页面处理技术的应用与实现[J].微计算机信息,2007,23(33):166-168. 被引量：4
6连雁平,章甲午.网络蜘蛛模拟系统分析与设计[J].安阳工学院学报,2012,11(6):38-40.
7何颂华.随心所欲使用InDesign Script开发自己的插件[J].印刷杂志,2001(11):42-44. 被引量：2
8张乃洲,曹薇,李石君.一种基于节点密度分割和标签传播的Web页面挖掘方法[J].计算机学报,2015,38(2):349-364. 被引量：13
9冯媛媛.MRO智能工作平台在企业物资供应管理中的应用[J].信息与电脑,2016,28(16):83-83. 被引量：1
10张磊.基于Web的CAI多媒体课件开发[J].电子制作,2013,21(19):139-139. 被引量：1

电脑开发与应用

2010年第6期

浏览历史

内容加载中请稍等...

基于Web页面有效信息抽取的分类方法被引量：1

参考文献7

二级参考文献75

共引文献143

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Web页面有效信息抽取的分类方法 被引量：1

参考文献7

二级参考文献75

共引文献143

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Web页面有效信息抽取的分类方法被引量：1