基于T-Graph算法的主题爬虫研究被引量：5

Research on topical crawler of T-Graph algorithm

下载PDF

导出

摘要为解决传统主题爬虫抓取特定领域的网页信息效率低下问题,在分析主题爬虫算法T-Graph的基础上,提出一种改进的T-Graph主题爬虫算法。利用维基百科的相关知识,采用语义分析的特征项提取算法提取特征项,在词的语义层次上对文本进行相似度计算,且综合考虑了网页中不同位置文本的权重问题。将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法效果更好。 To solve the problem that traditional focused crawler has low efficiency in searching web resources relevant to specific topics, the T-Graph algorithm was analyzed. However, T-Graph algorithm is deficient. An optimization strategy was proposed by using the Wikipedia knowledge to extract features based on feature extraction algorithm using semantic analysis. The similarity of texts based on semantic level was computed. In addition, the weight value of textual content in different positions was taken into consideration synthetically. The optimization strategy was compared with the original one by experiments. The experimental results show that the optimization strategy is more efficient in improving crawling process.

作者张环刘乃文段会川

机构地区山东师范大学信息科学与工程学院

出处《计算机工程与设计》 CSCD 北大核心 2014年第9期3014-3017,3028,共5页 Computer Engineering and Design

基金山东省教育科学规划攻关课题基金项目(ZK1037123C023)

关键词主题爬虫维基百科相似度计算权重 focused crawler T-Graph Wikipedia similarity computing weight value

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Patel A.An adaptive updating topic specific Web search system using T-Graph[J].Journal of Computer Science,2010,6 (4):450-456. 被引量：1
2Sotiris Batsakis,Euripides GM Petrakis,Evangelos Milios.Improving the performance of focused Web crawlers[J].Data & Knowledge Engineering,2009,68 (10):1001-1013. 被引量：1
3刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：131
4叶育鑫,欧阳丹彤.基于语义的主题爬行策略[J].软件学报,2011,22(9):2075-2088. 被引量：12
5熊忠阳,史艳,张玉芳.基于维基百科和网页分块的主题爬行策略[J].计算机应用,2011,31(12):3264-3267. 被引量：5
6汪祥,贾焰,周斌,丁兆云,梁政.基于中文维基百科链接结构与分类体系的语义相关度计算[J].小型微型计算机系统,2011,32(11):2237-2242. 被引量：18
7Zheng Haitao,Kang Bo-yeong,Kim Hong-Gee.An ontologybased approach to learnable focused crawling[J].Information Sciences,2008,178 (23):4512-4522. 被引量：1
8黄莉,王成良,杨铮.面向主题网络爬行的智能隧道穿越算法研究[J].计算机应用研究,2009,26(8):2931-2933. 被引量：6
9Evgeniy Gabrilovich,Shaul Markovitch.Computer semantic relatedness using Wikipedia-based explicit semantic analysis[C]//Proceeding of the 20th International Joint Conference on Artificial Intelligence,2007:1606-1611. 被引量：1
10Franziska Bussche,Klara Weiand.Not so creepy crawler:Easy crawler generation with standard XML queries[C]//Proceeding of the 19th International Conference on World Wide Web,2010:1305-1308. 被引量：1

二级参考文献59

1王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
2李卫,刘建毅,何华灿,王枞.基于主题的智能Web信息采集系统的研究与实现[J].计算机应用研究,2006,23(2):163-166. 被引量：15
3赵佳鹤,王秀坤,刘亚欣.基于语义分析的主题信息采集系统的设计与实现[J].计算机应用,2007,27(2):406-408. 被引量：14
4Novak B.A survey of focused web crawling algorithms [C].Proceedings of SIKDD at Multiconference IS. Slovenia: ACM Press,2004:55-58. 被引量：1
5Chau M,Chen H.Personalized and focused web spiders[J].Web Intelligence,Springer-Verlag, 2003(2):197-217. 被引量：1
6Rui Chen,Bipin C Desai.An enhanced web robot for the CINDI system[C].Proceedings of the C3 S2E Conference.Canadia:ACM Press,2008:133-135. 被引量：1
7Almpanidisa G,Kotropoulos C,Pitasa l.Combining text and link analysis for focused crawling - An application for vertical search engines[J].Information Systems,2007,32(6):886-908. 被引量：1
8Ching-Chi Hsu,Fan Wu.Topic-specific crawling on the web with the measurements of the relevancy context graph[J].Information Systems,2006,31(4):232-246. 被引量：1
9Philip Resnik. Using information content to evaluate semantic simi- larity in a taxonomy [A]. In: C. Raymond Perrault, Chris S. Mellish, Renato deMori eds. Proceedings of the 14th International Joint Conference on Artificial InteUigence [ C]. Montreal: AAAI Press, 1995:448-453. 被引量：1
10George A Miller. WordNet: a lexical database for english [ C].Communications of the ACM, 1995:38( 11 ) :39-41. 被引量：1

共引文献164

1赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
2尹江,尹治本,黄洪.网络爬虫效率瓶颈的分析与解决方案[J].计算机应用,2008,28(5):1114-1116. 被引量：18
3曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
4王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
5戚欣.基于本体的主题网络爬虫设计[J].武汉理工大学学报,2009,31(3):138-141. 被引量：14
6蒋元成,蔡皖东.基于主动探测的BT行为监测系统设计与实现[J].航空计算技术,2009,39(1):134-137. 被引量：1
7张博,蔡皖东.面向主题的网络蜘蛛技术研究及系统实现[J].微电子学与计算机,2009,26(5):52-55. 被引量：13
8曾云令,蔡皖东.eMule行为监测技术研究与系统实现[J].微电子学与计算机,2009,26(5):126-129.
9张春元,康耀红,伍小芹.Web新闻自动采集发布系统的设计与实现[J].计算机技术与发展,2009,19(9):250-252. 被引量：7
10王正,陆余良,刘金红,施凡.基于Lucene的互联网文献信息检索系统的研究[J].安徽大学学报（自然科学版）,2009,33(5):32-35. 被引量：2

同被引文献42

1张伍,党兆龙,贾阳.月面数字地形构造方法研究[J].航天器环境工程,2008,25(4):301-305. 被引量：16
2陈成,卜春光,何玉庆,韩建达.长航程极地漫游机器人环境建模方法[J].科学通报,2013,58(S2):75-82. 被引量：1
3李鸥.网络反恐及对策[J].江西公安专科学校学报,2006(3):92-95. 被引量：8
4史美萍,吴军,李焱,贺汉根.面向月球车路径规划的多约束环境建模方法[J].国防科技大学学报,2006,28(5):104-108. 被引量：8
5杨彬,康慕宁.基于概念的权重PageRank改进算法[J].情报杂志,2006,25(11):70-72. 被引量：10
6杨艳春,鲍劲松,金烨.一种真实感虚拟月面建模方法[J].系统仿真学报,2007,19(11):2515-2518. 被引量：11
7徐远超,刘江华,刘丽珍,关永.基于Web的网络爬虫的设计与实现[J].微计算机信息,2007,23(21):119-121. 被引量：36
8林泓,刘朋,李晶晶,龙振海.基于概率的PageRank改进算法[J].武汉理工大学学报,2009,31(3):81-83. 被引量：4
9何明,周军,李树友.语义相似的PageRank改进算法[J].计算机工程与应用,2009,45(27):140-142. 被引量：2
10叶育鑫,欧阳丹彤.语义Web搜索技术研究进展[J].计算机科学,2010,37(1):1-5. 被引量：20

引证文献5

1关卫国,骆永成.基于概念背景图的主题爬虫设计与实现[J].计算机工程与设计,2016,37(10):2679-2684. 被引量：4
2黄炜,张展程,朱彬,李岳峰,陆薇.基于回归分析的网络恐怖信息主题爬虫[J].图书情报工作,2018,62(4):121-129. 被引量：4
3张环.基于候选链接主题边缘文本的主题爬虫研究[J].山东师范大学学报（自然科学版）,2018,33(4):421-426.
4姜海洋,田锋,智峰,杨一凡.基于爬虫和深度学习的计量信息数据推送系统[J].计量科学与技术,2021,65(9):35-39. 被引量：2
5杨健健,唐至威,王晓林,王子瑞,吴淼.煤巷掘进机纠偏路径随机约束环境建模研究[J].矿业科学学报,2019,4(1):58-65. 被引量：6

二级引证文献16

1王鹏江,杨阳,王东杰,吉晓冬,沈阳,陈慎金,李旭,吴淼.悬臂式掘进机煤矸智能截割控制系统与方法[J].煤炭学报,2021,46(S02):1124-1134. 被引量：15
2黄宇龙.网络爬虫的有关算法[J].中国新通信,2017,19(23):47-48. 被引量：2
3李小雷,海宇峰,向模军,于春.基于语义概念背景图的主题爬虫的研究与实现[J].信息与电脑,2017,29(1):60-62.
4刘景发,李帆,蒋盛益.基于综合优先度和主机信息的暴雨灾害主题退火爬虫算法[J].计算机科学,2019,46(2):215-222. 被引量：6
5葛世荣,胡而已,裴文良.煤矿机器人体系及关键技术[J].煤炭学报,2020,45(1):455-463. 被引量：143
6瞿圆媛,宋林珂,吉晓冬,吴淼.井下掘进机行进纠偏调度规划与控制研究[J].矿业科学学报,2020,5(2):194-202. 被引量：8
7杨健健,张强,吴淼,王超,常博深,王晓林,葛世荣.巷道智能化掘进的自主感知及调控技术研究进展[J].煤炭学报,2020,45(6):2045-2055. 被引量：65
8胡亮,赵国瑞,李旭.掘进机截割部行星齿轮传动系统断齿故障仿真分析[J].矿业科学学报,2020,5(4):409-415. 被引量：2
9杨健健,王超,张强,常博深,王帆,王晓林,吴淼.井工巷道环境建模与掘进障碍检测方法研究[J].煤炭科学技术,2020,48(11):12-18. 被引量：12
10黄锦敬,黄锦焕,陈瑞志.基于改进VIPS算法的主题退火爬虫技术[J].计算机仿真,2021,38(8):412-416. 被引量：1

1彭成辉,陈笑蓉,李洪浩,陈驰,潘盛荣,刘乾坤,许竞.AHP在电梯维保质量评价中的应用研究[J].贵州大学学报（自然科学版）,2017,34(1):41-45. 被引量：12
2汪小燕,沈家兰,申元霞.基于加权粒度和优势关系的程度多粒度粗糙集[J].山东大学学报（理学版）,2017,52(3):97-104. 被引量：3
3丁冠铭,张安琳,陈慧,黄道颖,张安琴.一种能量均衡的战场无线传感器网络路由协议算法[J].火力与指挥控制,2016,41(6):91-94. 被引量：2
4桑庆兵.基于神经网络的双语教学评价体系[J].江南大学学报（自然科学版）,2010,9(3):274-278. 被引量：9
5桑庆兵,吴小俊.基于神经网络的双语教学评价体系研究[J].中国高等教育评估,2010,23(1):54-58. 被引量：3
6张国英,沙芸,余有明,刘玉树.基于属性相似度的云分类器[J].北京理工大学学报,2005,25(6):499-503. 被引量：11
7王晓晔,张涛,郝亚培.网络入侵异常检测中数据预处理的研究[J].天津理工大学学报,2013,29(6):31-35. 被引量：4
8吴水秀,曾庆鹏,王明文.基于改进ReliefF算法的主成分特征提取方法[J].计算机工程,2008,34(18):51-52. 被引量：3
9刘光聪,朱大铭,姜海涛.有向基因组反转和转位排序最小权重问题的1.5k近似算法[J].小型微型计算机系统,2010,31(7):1452-1456.
10徐云龙,张颜,乔谦.自动化出卷系统的设计与实现[J].科技经济导刊,2016(26).

计算机工程与设计

2014年第9期

浏览历史

内容加载中请稍等...

基于T-Graph算法的主题爬虫研究被引量：5

参考文献11

二级参考文献59

共引文献164

同被引文献42

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于T-Graph算法的主题爬虫研究 被引量：5

参考文献11

二级参考文献59

共引文献164

同被引文献42

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于T-Graph算法的主题爬虫研究被引量：5