基于网页的站内信息采集技术的研究与实现被引量：1

A Study and Implement of Intranet Gather Information Technology Based on Web Page

下载PDF

导出

摘要实现站内搜索引擎的关键一步是信息的自动采集.站内信息采集技术是通过分析网页的HTML代码,获取网内的超链信息,使用广度优先搜索算法和增量存储算法,实现自动地连续分析链接、抓取文件、处理和保存数据的过程.系统在再次运行中通过应用属性对比技术,在一定程度上避免了对网页的重复分析和采集,提高了信息的更新速度和搜全率. The key step of implementation of intranet search engine is to gather information automatically. The intranet gathering information system realizes that it continuously analyzes hyperlinks, crawls files, processes and stores data by analyzing HTML codes, abstracting hyperlinks, designing the breadth-first search algorithm and increment memory algorithm. When the system runs again ,the technology of attribute comparing is applied ,the speed of update and the rate of recall are improved.

作者马志强赵汐贾鹏

机构地区内蒙古工业大学信息工程学院东北大学秦皇岛分校呼和浩特铁路局包头西机务段

出处《内蒙古大学学报（自然科学版）》 CAS CSCD 北大核心 2009年第2期203-207,共5页 Journal of Inner Mongolia University：Natural Science Edition

基金内蒙古工业大学科学研究项目(X200806)

关键词信息采集广度优先搜索算法增量存储 gather information breadth first search increment memory

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Changsheng Zhou. Double-Indexing Mechanism of Search Engine Based on Campus Net [A]. Proceedings of 2006 Asia-Pacific Services Computing Conference [C]. Guangzhou: South China University of Technology. 2006,654-657. 被引量：1
2周登朋,谢康林.Lucene搜索引擎[J].计算机工程,2007,33(18):95-96. 被引量：23
3印鉴,陈忆群,张钢.搜索引擎技术研究与发展[J].计算机工程,2005,31(14):54-56. 被引量：53
4马志强,周长胜,丁维,杨娜.校园网搜索引擎的研究与实现[J].北京机械工业学院学报,2007,22(1):12-15. 被引量：12
5高凯.搜索引擎中信息动态采集策略的研究[J].电子学报,2007,35(10):1984-1988. 被引量：7

二级参考文献33

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3Shkapenyuk V, Suel T. Design and Implementation of a High- performance Distributed Web Crawler. In Proceedings of the 18th International Conference on Data Engineering (ICDE'02), San Jose, CA, 2002:357-368 被引量：1
4Cho J, Garcia-Molina H, Page L. Efficient Crawling Through Url Ordering. In 7^th Int. World Wide Web Conference, 1998 被引量：1
5Chakrabarti S, van den Berg M, Dom B. Focused Crawling: A New Approach to Topic-specific Web Resource Discovery. In Proc. of the 8^th Int. World Wide Web Conference (WWW8), 1999 被引量：1
6Rennie J, McCallum A. Using Reinforcement Learning to Spider the Web Efficiently. In Proc. of the Int. Conf. on Machine Learning (ICML),1999 被引量：1
7Spertus E. Parasite: Mining Structural Information on the Web. In : Proc. of the Sixth Int'l World Wide Web Conf. , 1997 被引量：1
8Cho J, Garcia-Molina H. The Evolution of the Web and Implications for an Incremental Crawler. In Proc. of 26th Int. Conf. on Very Large Data Bases, 2000:117-128 被引量：1
9Henzinger M R, Heydon A, Mitzenmacher M, et al. on Near-uniform URL Sampling. In Proc. of the 9^th Int. World Wide Web Conference, 2000 被引量：1
10Raghavan S, Garcia-Molina H. Crawling the Hidden Web. In Proc. of 27^th Int. Conf. on Very Large Data Bases, 2001 被引量：1

共引文献88

1孟庆国,王友奎,田红红.政务服务中的智能化搜索:特征、应用场景和运行机理[J].电子政务,2020,0(2):21-33. 被引量：21
2郝卫,魏赟.基于知识图谱表示学习的推荐算法优化[J].智能计算机与应用,2020,10(4):22-26. 被引量：3
3马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
4彭轲,廖闻剑.基于浏览器服务的网络爬虫[J].硅谷,2009,2(4). 被引量：7
5柳婷.网络蜘蛛的简单设计与研究[J].大众商务,2010(16):189-189.
6何晶.图书馆智能化信息推荐服务系统性能优化技术研究[J].自动化与仪器仪表,2016(2):116-117. 被引量：1
7徐远超,刘江华,刘丽珍,关永.基于Web的网络爬虫的设计与实现[J].微计算机信息,2007,23(21):119-121. 被引量：36
8乔东枝.新一代搜索引擎的智能化特征及技术进展[J].高校图书馆工作,2007,27(4):32-34.
9吴远红,徐妙君,范银琛.元搜索引擎中基于OWA算子的查询结果合成研究[J].微电子学与计算机,2007,24(9):22-24. 被引量：2
10李一.无线搜索引擎的现状与发展[J].图书馆学研究,2007(11):32-34. 被引量：5

同被引文献3

1刘书华,陈国奎.基于PowerBuilder的网页数据抓取[J].计算机系统应用,2009,18(2):171-175. 被引量：9
2拜战胜,徐德智,彭佳红,陈光仪.基于主题本体的信息采集模型研究[J].计算机技术与发展,2009,19(10):102-105. 被引量：4
3罗敖生.基于ASP实现网上数据的自动抓取[J].江苏广播电视大学学报,2002,13(6):59-61. 被引量：5

引证文献1

1李波,孙建.通用网页数据采集系统设计[J].科技与生活,2010(2):17-17.

1周立兵,周大伟,张昌宏.一种新的证书撤销列表发布方案设计[J].计算机与数字工程,2012,40(9):79-81.
2杨国华.基于增量技术的分布式协同设计体系研究[J].中国勘察设计,2016(5):88-91. 被引量：2
3胥永康,吴志杰,岳筱玲.基于客户/服务器的应用软件自动发布系统[J].信息与电子工程,2004,2(3):200-203. 被引量：2
4刘阳,张天石,佟星,曾鹏.第四十六讲工业物联网技术及标准体系[J].仪器仪表标准化与计量,2014(4):22-24.
5吴志强,卢刚,谢建辉,赖如清,黄东军.iFIX的安全机制及其工控网络三层安全模型[J].自动化仪表,2003,24(9):45-49.
6黄晖,王泉.航空软件配置管理系统设计和关键技术研究[J].航空计算技术,2010,40(4):69-71. 被引量：5
7张泊平,郭超峰.基于网页结构挖掘算法研究[J].计算机与信息技术,2006,0(6):9-11.
8李云,严海蓉,王玉林,邹德财.自定义数据上传应用在OPNET中的实现[J].计算机工程与应用,2007,43(20):113-116. 被引量：1
9刘国军,杨宏志.基于双向链表的产品协同设计版本存储模型[J].计算机系统应用,2013,22(10):129-131. 被引量：3
10张莲,李京,刘炜清.云同步系统中采用增量存储的版本控制技术研究[J].小型微型计算机系统,2015,36(3):427-432. 被引量：4

内蒙古大学学报（自然科学版）

2009年第2期

浏览历史

内容加载中请稍等...

基于网页的站内信息采集技术的研究与实现被引量：1

参考文献5

二级参考文献33

共引文献88

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于网页的站内信息采集技术的研究与实现 被引量：1

参考文献5

二级参考文献33

共引文献88

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于网页的站内信息采集技术的研究与实现被引量：1