面向分层结构的网页分类与抓取被引量：2

Categorization and Extraction of Web Pages Based on Hierarchy

下载PDF

导出

摘要传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。 Traditional web crawler provides services based on searching keywords. It cannot extract the categorization information of web pages, thus resulting in efficiency and accuracy problems on text clustering and topic detection. To solve this problem, a method of categorization and extraction of web pages based on hierarchy is proposed in this paper. By building a virtual hierarchy categorization tree and extracting the hierarchies of real web sites, a web page is categorized when it is crawled. For sites which have no categorization information, a page title based categorization algorithm is presented, including building up the domain knowledge base and calculating the semantic similarity based on Hownet. The experimental results demonstrate that this method achieves preferable effects.

作者王振宇唐远华郭力

机构地区华南理工大学软件学院华南理工大学计算机科学与工程学院

出处《计算机工程与科学》 CSCD 北大核心 2012年第11期1-6,共6页 Computer Engineering & Science

基金广东省科技计划基金资助项目(2010B010600017)

关键词网络爬虫网页分类领域知识库知网 web crawler page categorization domain knowledge base Hownet

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Qi Xiaoguang, Davison B D. Web Page Classification: Fea tures and Algorithms[J]. ACM Computing Surveys(CSUR), 2009,41(2) : 12-42. 被引量：1
2Shen D,Yang Q,Chen Z. Noise Reduction Through Summa- rization for Web-Page Classification[J]. Information Process- ing :. Management. 2007,43(6) :1735- 1747. 被引量：1
3董静..中文网页形式自动分类[D].大连理工大学,2006:
4刘卫红,方卫东,董守斌,张凌.基于内容与链接特征的中文垃圾网页分类[J].微计算机信息,2010,26(9):6-8. 被引量：4
5代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
6董振东,董强.知网简介[EB/OL].[2011-11-12].http://www.keenage.corn. 被引量：1
7刘群李素建.基于《知网》的词汇语义相似度计算[C]..第三界汉语词汇语义研讨会[C].台北,2002.. 被引量：105
8搜狗实验室(SogouLabs)[EB/OL].[2011-11-12].http://www.sogou.corn/labs/. 被引量：1
9李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78

二级参考文献22

1刘宏伟,黄静.基于朴素贝叶斯算法的垃圾邮件网关[J].微计算机信息,2006,22(06X):73-75. 被引量：6
2黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38. 被引量：1
3Gyongyi, Z. and Garcia-Molina, H. Web spam taxonomy. In First International Workshop on Adversarial Information Retrieval on the Web. 2005. 被引量：1
4D. Fetterly, M. Manasse, and M. Najork. Spam, damn spam, and Statistics: Using statistical analysis to locate spam web pages. In: 7th International Workshop on the Web and Databases 2004. 被引量：1
5Z. Gy ngyi, H. Garcia-Molina, and J. Pedersen. Combating Web spam with TrustRank. In VLDB, 2004. 被引量：1
6W. Wang et al. EviRank: An Evidence Based Content Trust Model for Web Spam Detection. APWeb/WAIM 2007 Ws, LNCS 4537, pp. 299 - 307, 2007. 被引量：1
7Krysta M. Svore, Qiang Wu, Chris J.C. Burges. Improving Web Spam Classification using Rank-time Features. AIRWeb '07, May 8, 2007 Banff, Alberta, Canada. 被引量：1
8T. Urvoy, T. Lavergne, and P. Filoche, Tracking Web Spam with Hidden Style Similarity, Proc. 2nd Int'l Workshop on Adversarial Information Retrieval on the Web (AIRWeb 06), 2006:. 被引量：1
9J. Kleinberg. Authoritative sources in a hyperlinked environment. Journal of ACM, 46:119 - 130, 1997. 被引量：1
10A. Bencz'ur, K. Csalog'any, and T. Sarl'os. Link-based similarity search to fight web spam. In Proc. of AIRWEB 2006, Seattle, 2006. 被引量：1

共引文献400

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
5张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
6于波,于慧娜,孙立镌.基于概念格的网站信息资源的知识抽取[J].科技资讯,2007,5(2). 被引量：1
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
9单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
10陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2

同被引文献34

1彭涛,左万利,赫枫龄,张长利.基于粒子群优化算法的网页分类技术[J].计算机研究与发展,2006,43(z3):33-38. 被引量：2
2赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
3侯小静,王黎明.利用HTML标签筛选网页分类样本[J].微机发展,2005,15(3):142-144. 被引量：3
4鲁明羽,沈抖,郭崇慧,陆玉昌.面向网页分类的网页摘要方法[J].电子学报,2006,34(8):1475-1480. 被引量：5
5王天江,孔华武.一种基于定性推理的网页分类方法[J].计算机工程与应用,2007,43(9):176-177. 被引量：1
6张茂元,邹春燕,卢正鼎.一种基于变调整学习规则的模糊网页分类方法研究[J].计算机研究与发展,2007,44(1):99-104. 被引量：4
7殷贤亮,李猛.基于分块的网页主题信息自动提取算法[J].华中科技大学学报（自然科学版）,2007,35(10):39-41. 被引量：6
8Qi Xiao-guang, Davison B D. Web Page Classification: Features and AtgorithmsI[J]. ACM Computing Surveys (CSUR), 2009, 41(2):12 42. 被引量：1
9Shen D, Yang Q, Chen Z. Noise Reduction Through Summariza- tion for Web Page cIassificalion[J]. Information Processing Management, 2007,43 (6) : 1735-1747. 被引量：1
10Broughton V. A faceted classification as the basis of a faceted terminology: Conversion of a classified structure to thesaurus format in the Bliss Bibliographic Classification (2nd Ed. )[J]. Axiomathes, 2008,18(2) : 193-210. 被引量：1

引证文献2

1王树西,夏增艳.一种区分索引与信息的网页分类数学模型及证明[J].计算机科学,2014,41(B11):307-312.
2顾敏,郭庆,曹野,朱峰,顾彦慧,周俊生,曲维光.基于结构和文本特征的网页分类技术研究[J].中国科学技术大学学报,2017,47(4):290-296. 被引量：5

二级引证文献5

1严云洋,瞿学新,朱全银,李翔,赵阳.基于离群点检测的分类结果置信度的度量方法[J].南京大学学报（自然科学版）,2019,55(1):102-109. 被引量：4
2王珺.基于文本特征识别的电子档案自动归类系统研究[J].现代电子技术,2019,42(18):45-49. 被引量：5
3周超然,赵建平,马太,周欣.基于注意力机制和集成学习的网页黑名单判别方法[J].计算机应用,2021,41(1):133-138. 被引量：2
4邓吉秋,邹毓,夏晨晨.文本化地质资料Markdown格式规范化方法[J].地质学刊,2022,46(2):120-135. 被引量：1
5李春霞,崔艳海,彭艳兵,周天河.基于BERT的黑灰产网页分类方法研究[J].中国科技纵横,2024(11):18-20.

1张春云,赵爱龙,王爱玲.服务器IIS5.0的虚拟站点配置技术[J].河南气象,2002(2):42-42. 被引量：1
2邓剑文.例题36 在ASP文件中通过自制ASP组件建立Web服务器虚拟站点[J].电脑编程技巧与维护,2005(B08):149-151. 被引量：1
3谷歌发布针对企业的地图服务Maps Engine Pro[J].电脑知识与技术（经验技巧）,2013(11):114-115.
4姚惠红.基于工作流管理系统的项目管理探讨[J].中国高新技术企业,2009(14):127-128.
5赖德新,陆松年,杨树堂.面向大规模多用户并发访问的MPLS VPN实验系统设计[J].计算机应用研究,2006,23(9):237-239. 被引量：1
6章晴,付江帆.基于Internet的工作流平台的设计与实现[J].科技广场,2012(11):25-29.
7新产品&工具点评[J].程序员,2007(4):124-125.
8熊小勇,张苗苗.网格服务系统组装的研究与应用[J].计算机与现代化,2006(6):101-105.
9唐莉莉.协同办公在现代企业中的应用的必要性[J].硅谷,2010,3(8):130-130. 被引量：1
10葛秀豪,卢捍华,丁傲西.基于SaaS模式的流程引擎服务模型研究[J].电信快报（网络与通信）,2010(12):27-30. 被引量：4

计算机工程与科学

2012年第11期

浏览历史

内容加载中请稍等...

面向分层结构的网页分类与抓取被引量：2

参考文献9

二级参考文献22

共引文献400

同被引文献34

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

面向分层结构的网页分类与抓取 被引量：2

参考文献9

二级参考文献22

共引文献400

同被引文献34

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

面向分层结构的网页分类与抓取被引量：2