一种Deep Web聚焦爬虫爬行策略被引量：2

A Deep Web Sources Focused Crawler's Crawling Strategy

下载PDF

导出

摘要实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径.Deep Web爬虫是Deep Web数据源集成的关键组成部分.提出一种针对结构化Deep Web的聚焦爬虫爬行策略.通过对查询接口的特征分析来判断Deep Web数据源的主题相关性.同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息.实验证明该方法是有效的. Large-seale integration of Deep Web sources is an efficient way to meet users＇ need for Deep Web information. Deep Web crawler is a key component of data sources integration. This paper presents a focus crawler strategy for structural Deep Web. When evaluating the correlation of Deep Web data sources to the subject, consider the characteristics of query interface. Evaluating the importance of the link, consider the correlation of the page content and links related information. Experiments indicate that this method is effective.

作者蔡欣宝陈洪平赵朋朋崔志明

机构地区苏州大学智能信息处理及应用研究所江苏省现代企业信息化应用支撑软件工程技术研发中心

出处《微电子学与计算机》 CSCD 北大核心 2009年第8期117-120,共4页 Microelectronics & Computer

基金国家自然科学基金项目(60673092) 2008年江苏省重大科技支撑与自主创新项目(BE2008044) 江苏省现代企业信息化应用支撑软件工程技术研发中心开放基金项目(SX200904)

关键词结构化Deep WEB数据源聚焦爬虫决策树分类器 structural Deep Web sources focused crawler decision tree classifier

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1林超,赵朋朋,崔志明.Deep Web数据源聚焦爬虫[J].计算机工程,2008,34(7):56-58. 被引量：11

二级参考文献6

1Kevin Chang Chenchuan. Structured Databases on the Web: Observations and Implications[J]. SIGMOD Record, 2004, 33(3): 61-65. 被引量：1
2Cho J, Garcia-Molina H, Page L. Efficient Crawling Through URL Ordering[J]. Computer Networks and ISDN Systems, 1998, 30(7): 161-172. 被引量：1
3Rennie J, McCallum A. Using Reinforcement Learning to Spider the Web Efficiently[C].Proc. of the International Conference on Machine Learning. San Francisco, USA: Morgan Kaufmann Publishers Inc., 1999: 335-343. 被引量：1
4Diligenti M, Coetzee F M, Lawrence S, et al. Focused Crawling Using Context Graphs[C].Proc. of the International Conference on Very Large Database. San Francisco, USA: Morgan Kaufmann Publishers Inc., 2000: 527-534. 被引量：1
5Kevin Chang Chenchuan, He Bin, Zhang Zhen. Toward Large-scale Integration: Building a MetaQuerier over Databases on the Web [C].Proc. of Conference on Innovative Data Systems Research. [S. l]: Asilomar, 2005. 被引量：1
6Barbosa L, Freire L. Searching for Hidden-Web Databases[C].Proc. of WebDB'05. Baltimore, USA: [s. n.]. 2005. 被引量：1

共引文献10

1刘邵斌,张祖平,龙军.一种基于WatiJ的Deep Web蜘蛛研究[J].计算机工程,2011,37(4):264-266.
2王海龙,胡景芝,赵朋朋,崔志明.基于搜索引擎的Deep Web数据源发现[J].计算机工程,2011,37(5):77-79. 被引量：1
3赵丽.基于Deep Web数据集成系统的预取系统的设计[J].中国科技博览,2012(3):104-104. 被引量：1
4陈明,郭建兵,赵朋朋,崔志明.Deep Web中基于表单特征的松弛方法[J].计算机工程与设计,2012,33(1):168-172.
5沈祥兴,严冠湘,尤赤矾,陈训威,付平.高校人文学科实验室绩效评价与研究[J].图书情报知识,2012,29(2):124-128. 被引量：1
6姚双良.基于主题的Deep Web聚焦爬虫研究与设计[J].西北师范大学学报（自然科学版）,2013,49(2):40-43. 被引量：2
7郑晓春,顾进广,邓海龙.基于语义维基的危化品CLOD构建[J].工业控制计算机,2013,26(6):91-93.
8孙红光,藏润强,姬传德,杨凤芹,冯国忠.基于语义的聚焦爬虫算法研究[J].东北师大学报（自然科学版）,2018,50(2):51-57. 被引量：9
9赵建华,蒋劲松.基于聚焦爬虫的搜索引擎的设计与实现[J].系统仿真技术,2018,14(3):221-226. 被引量：3
10吴修庆.基于更新信息的网页机器理解及其在站内搜索引擎中应用[J].工业控制计算机,2018,31(2):112-114. 被引量：1

同被引文献26

1石阶平.餐饮服务食品安全监管机制的探索[J].中国食品药品监管,2010(2):21-23. 被引量：15
2高克宁,柴桥子,张斌,马安香.支持Web信息分类的高性能蜘蛛程序[J].小型微型计算机系统,2006,27(7):1308-1312. 被引量：6
3Fetterly D, Craswell N, Vinay V. Search effectiveness with a breadth--first crawl[C]//Research and develop- ment in information retrieval. New York: ACM, 2008. 被引量：1
4Cafarella M J, Madhavan J, Halevy A. Web--scale extraction of structured data[J]. ACM SIGMOD Record, 2008, 37(4) :55-61. 被引量：1
5Broder A Z, Najork M, Wiener J L. Efficient URL cac hing for world wide web crawling[C]//12th internation- al conference on World Wide Web. New York: ACM, 2003. 被引量：1
6McCown F, Nelson M L. Evaluation of crawling policies for a web repository crawler[C]//17th conference on Hypertext and hypermedia. New York, 2006. 被引量：1
7Comes D, Santos A L, Silva M J. Managing duplicates in a web archive[C]//2006 ACM symposium on Applied computing. New York: ACM, 2006. 被引量：1
8Bennouas T, Montgolfier P D. Random web crawls [C]//16th international conference on World Wide Web. New York: ACM, 2007. 被引量：1
9张程,陈自郁,古平,杨瑞龙.基于DOM树结构的Blog网页自动识别[J].计算机应用研究,2008,25(5):1489-1491. 被引量：8
10章德宾,徐家鹏,许建军,李崇光.基于监测数据和BP神经网络的食品安全预警模型[J].农业工程学报,2010,26(1):221-226. 被引量：74

引证文献2

1金凡,顾进广.一种改进的T-Spider分布式爬虫[J].微电子学与计算机,2011,28(8):102-104. 被引量：3
2陈默,张景祥,胡恩华,吴林海,张义.基于结构化分析和语义相似度的食品安全事件领域数据挖掘模型[J].食品科学,2021,42(7):35-44. 被引量：4

二级引证文献7

1黄志敏,曾学文,陈君.一种基于Kademlia的全分布式爬虫集群方法[J].计算机科学,2014,41(3):124-128. 被引量：9
2范珊珊,李石君.基于优先级队列的分布式多主题爬虫[J].计算机工程与设计,2015,36(6):1630-1636. 被引量：6
3陶耀东,向中希.基于改进Kademlia协议的分布式爬虫[J].计算机系统应用,2016,25(4):156-161. 被引量：5
4艾新波,郭彦君,谢云昊,陈成.基于ERNIE-CRF-ESL安全隐患文本结构化解析[J].北京邮电大学学报,2021,44(5):107-113. 被引量：2
5陈钢,陈健鹏,佘祥荣,秦加奇,陈剑.基于关键词生成的网格事件相似度并行计算[J].计算机系统应用,2022,31(6):48-55.
6孙晓君.基于数据挖掘的智能电网暂态通信安全状态感知技术[J].自动化与仪器仪表,2024(5):55-58. 被引量：2
7罗晓清,郭林,杨雨萌,黄耐云,吴小俊.基于时空Transformer模型的食品监督抽检分类预测研究[J].中国食品学报,2024,24(11):1-9.

1赵丽.基于Deep Web数据集成系统的预取系统的设计[J].中国科技博览,2012(3):104-104. 被引量：1
2崔晓军,彭智勇,杨先娣,张莹.Deep Web信息按需集成研究综述[J].武汉大学学报（理学版）,2009,55(4):465-472. 被引量：2
3姚双良.基于主题的Deep Web聚焦爬虫研究与设计[J].西北师范大学学报（自然科学版）,2013,49(2):40-43. 被引量：2
4赵昊,卫刚,赵晓东.基于主题Deep Web数据挖掘的研究与探索[J].电脑知识与技术,2012,8(6):3792-3795.
5徐和祥,张永忠,胡运发.一种安全验证模式下Deep Web爬虫的研究[J].计算机应用与软件,2010,27(5):9-11.
6黄聪会,张水平,胡洋.主题Deep Web爬虫框架研究[J].计算机工程与设计,2010,31(5):929-931. 被引量：3
7高岭,赵朋朋,崔志明.Deep Web查询接口的自动判定[J].计算机技术与发展,2007,17(5):148-151. 被引量：13
8郑皎凌,唐常杰,姜玥,杨宁,李红军.基于伪属性语义匹配的Deep web信息抽取[J].四川大学学报（工程科学版）,2009,41(2):173-178. 被引量：4
9林培光,吕超.领域Web数据库查询接口的自动发现[J].江西师范大学学报（自然科学版）,2008,32(2):197-200.
10李强.Deep-Web搜索引擎实现技术研究[J].甘肃科技,2012,28(3):27-29.

微电子学与计算机

2009年第8期

浏览历史

内容加载中请稍等...

一种Deep Web聚焦爬虫爬行策略被引量：2

参考文献1

二级参考文献6

共引文献10

同被引文献26

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种Deep Web聚焦爬虫爬行策略 被引量：2

参考文献1

二级参考文献6

共引文献10

同被引文献26

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种Deep Web聚焦爬虫爬行策略被引量：2