基于标签密度的自适应正文提取方法被引量：3

Adaptive Approach for Content Extraction Based on Tag Density

下载PDF

导出

摘要提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的. A novel approach for removing Web page noises is presented by exploiting the differences of density of anchor text and tag in different parts of Web page.According to fluctuations in the tag distribution of content regions,the algorithm adaptively learns relative thresholds so as to effectively remove Web noises.In the experiments of content information extraction and Chinese Web page classificaition,it indicates that the approach for denoising is effective and feasible compared to other approaches.

作者孙皓董守斌

机构地区华南理工大学广东省计算机网络重点实验室

出处《郑州大学学报（理学版）》 CAS 北大核心 2009年第1期44-47,共4页 Journal of Zhengzhou University:Natural Science Edition

基金国家863计划项目编号2006AA012196

关键词标签密度锚文本密度正文信息网页去噪 tag density anchor density content information Web denoising

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101

二级参考文献39

1Shian-Hua Lin, Jan-Ming Ho. Discovering informative content blocks from Web documents. In: SIGKDD, 2002 被引量：1
2Soumen Chakrabarti, Mukul M. Joshi and Vivek B. Tawde.Enhanced topic distillation using text, markup tags, and hyperlinks. In: SIGIR, 2001 被引量：1
3S. Chakrabarti, M. Joshi, and M. Subramanyam. Accelerated focused crawling through online relevance feedback. In :WWW, Hawaii. ACM, 2002 被引量：1
4Yiming Yang. Noise reduction in a statistical approach to text categorization. In: Proceedings of SIGIR-95, 18th ACM International Conference on Research and Development in Information Retrieval, 1995 被引量：1
5Li Xiaoli and Shi Zhongzhi. Innovating Web page classification through reducing noise. Journal of Computer Science & Technology, 2002 ,17(1): 9 ～ 17 被引量：1
6http://162. 105.80.84/cgi-bin/getdirectory? ccode = 0 被引量：1
7http://e. pku. edu. cn 被引量：1
8Yang Y. Expert network:effective and efficient learning from human decisions in text categorization and retrieval. In: Proceedings of the Seventeenth International ACM SIGIR Conference on Research and Development in Information Retrieval,1994. 13 ～ 22 被引量：1
9Lewis D. D., et al. Training algorithms for linear text classitiers. In: Proceedings of the Nineteenth International ACM SIGIR Conference on Research and Development in Information Retrieval, 1996. 298 ～ 306 被引量：1
10Michael W. Berry, Murray Browne. Understand Search Engines (Mathematical Modeling and Text Retrieval). SLAM,1999 被引量：1

共引文献197

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
5贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
6陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97. 被引量：1
7王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
8王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
9胡冬梅.泰达图书馆个性化信息服务系统的探索与实践[J].现代图书情报技术,2004(10):92-95. 被引量：8
10孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6

同被引文献18

1游贵荣,陆玉昌.基于统计和机器学习的中文Web网页正文内容抽取[J].福建商业高等专科学校学报,2009(2):68-72. 被引量：5
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
4崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量：12
5李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15
6梅雪,程学旗,郭岩,张刚,丁国栋.一种全自动生成网页信息抽取Wrapper的方法[J].中文信息学报,2008,22(1):22-29. 被引量：21
7杨俊,李志蜀.基于DOM的WEB主题信息抽取[J].四川大学学报（自然科学版）,2008,45(5):1077-1080. 被引量：11
8李舒晨,刘云,李勇.网络舆情分析中网页信息预处理方案的实现[J].电脑与电信,2008(10):30-33. 被引量：2
9李朝,彭宏,叶苏南,张欢,杨亲遥.基于DOM树的可适应性Web信息抽取[J].计算机科学,2009,36(7):202-203. 被引量：16
10张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. 被引量：5

引证文献3

1秦成磊,魏晓,杨阳.一种基于统计的复杂页面正文提取方法[J].计算机应用与软件,2015,32(7):90-92. 被引量：1
2石锦涛.基于文字密度提取网页正文[J].福建电脑,2017,33(4):116-117.
3胡露露,刘小勤,孙凯.基于正文特征和网页结构的网页正文抽取方法[J].大气与环境光学学报,2017,12(3):230-235. 被引量：2

二级引证文献3

1王宇龙,赖华,余正涛,洪旭东,刘书龙.融合结构和内容特征提取多类型网页文本要素[J].山西大学学报（自然科学版）,2016,39(3):386-391. 被引量：1
2梁东,杨永全,魏志强.基于支持向量机的网页正文内容提取方法[J].计算机与现代化,2018(9):21-26. 被引量：2
3郑创伟,王泳,陈少彬,邢谷涛,谢志成.Web信息抽取技术在吹哨系统中的研究与应用[J].中国传媒科技,2023(4):154-158.

1王文远,王大玲,冯时,李任斐,王琳.一种面向情感分析的微博表情情感词典构建及应用[J].计算机与数字工程,2012,40(11):6-9. 被引量：15
2邓晓,何怡刚.基于数据库的查询树反碰撞算法[J].计算机工程与应用,2008,44(8):9-11.
3贺洪江,丁晓叶,翟耀绪.标签运动状态下的RFID系统反碰撞算法[J].计算机应用,2011,31(8):2048-2051. 被引量：2
4时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J].计算机工程,2007,33(19):276-278. 被引量：17
5曾蒸,马燕.基于模式匹配的网页净化方法[J].重庆师范大学学报（自然科学版）,2015,32(6):103-108.
6徐捷,王中友,吴哲夫.基于RFID技术的行李管理应用研究[J].机电工程,2015,32(7):1011-1014. 被引量：2
7宫赤坤,李永新.高压动态校准的数据建模与补偿[J].传感器与微系统,2008,27(7):59-61.
8肖倩,王建辉,方晓柯,关守平.一种基于互相关函数的小波系数相关阈值去噪方法[J].东北大学学报（自然科学版）,2011,32(3):318-321. 被引量：19
9胡飞,杨华千,韦鹏程,彭涛,蒲昌玖.基于局部最优标签树的网页净化方法[J].科学技术与工程,2012,20(35):9556-9561.
10袁明轩,张选平,蒋宇,赵仲孟.一种基于同层网页相似性去除网页噪音的方法[J].计算机工程,2006,32(23):61-63. 被引量：3

郑州大学学报（理学版）

2009年第1期

浏览历史

内容加载中请稍等...

基于标签密度的自适应正文提取方法被引量：3

参考文献3

二级参考文献39

共引文献197

同被引文献18

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于标签密度的自适应正文提取方法 被引量：3

参考文献3

二级参考文献39

共引文献197

同被引文献18

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于标签密度的自适应正文提取方法被引量：3