中文Deep Web的大小、质量及分布被引量：1

Deep Web in Chinese： Size, Quality, Distribution

下载PDF

导出

摘要 Deep Web中包含着大量高质量内容，当前的搜索引擎技术还不能对其进行搜索，研究Deep Web的大小、质量及分布情况将有助于找到对其进行有效搜索的方法和技术。以网络蜘蛛采集的2006年10月的数据为样本，利用统计、概率等定量方法和定性方法，首次对中文Deep Web的大小、质量及分布情况进行调查，得出概况如下：①Deep Web大小比Surface Web的大240倍以上；②包含的文件总数量和总存储量分别为507亿、11700TB；③可搜索数据库数量超过3万个；④内容质量较高；⑤内容主题分布不均匀。 There are lots of valuable contents in Deep Web that can＇t be searched by current Search Engine technology. It＇ s useful to find an effective way or technology to search the deep web by researching the size, quality, distribution of Deep Web. With statistical, probabilistic and qualitative methods, firstly research the size, quality, distribution of Deep Web in Chinese with the sample data fetched by a web spider in October, 2006. Results are as below： ①the size of Deep Web is 240 times more than Surface web; ②the total count and storage of the Deep Web is 50.7 billion and 1.17 thousand TB; ③the count of Searchable Data Bases is more than 30 thousand;④the quality of contents are higher; ⑤the distribution of contents is not even.

作者藕军任明仑左春荣章成志

机构地区合肥工业大学计算机网络研究所南京大学信息管理系

出处《情报学报》 CSSCI 北大核心 2008年第2期256-260,共5页 Journal of the China Society for Scientific and Technical Information

关键词 DEEP WEB 中文 WEB 搜索引擎 deep Web, Web in Chinese, search engine

分类号 G230.7 [文化科学] TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Bergman M. “The Deep Web: Surfacing the Hidden Value ”. 2000. www. completeplanet, com/Tutorials/ DeepWeb/index. asp, BrightPlanet ( Accessed 2006-10). 被引量：1
2闫宏飞,李晓明.关于中国Web的大小、形状和结构[J].计算机研究与发展,2002,39(8):958-967. 被引量：17
3黄晓冬.Invisible Web研究综述[J].情报科学,2004,22(9):1144-1148. 被引量：19
4吴志强,严贝妮.从隐蔽网络到国际互联网信息资源控制计划[J].图书情报工作,2004,48(3):82-85. 被引量：7
5CNNIC.第19次中国互联网络发展状况统计报告[2007-04-28].http://www.cnnic.net.cn/index/0E/00/11/index.htm 被引量：3
6Bharat K, Broder A. A Technique for Measuring the Relative Size and Overlap of Public Web Search Engines. The Seventh International World Wide Web Conference, Brisbane, Australia, 1998. 被引量：1
7King-Lup Liu, Clement Yu, Weiyi Meng, Santoso A, Zhang C. Discovering the Representative of a Search Engine. Tenth ACM International Conference on Information and Knowledge Management (CIKM' 01 ), Atlanta, 2001 : 577- 579. 被引量：1
8搜狐分类目录.http://dir.sogou.com(Accessed 2006-10). 被引量：1
9网址之家.http://www.hao123.com(Accessed 2006-10). 被引量：1
10雅虎网址大全.http://site.yahoo.com.cn(Accessed 2006-10). 被引量：1

二级参考文献33

1谢武,韩元杰.基于数据挖掘和证据理论的综合评价的研究[J].现代电子技术,2005,28(17):56-58. 被引量：2
2杨帆,王秀伟,白振兴.基于Google的网站优化技术[J].现代电子技术,2006,29(19):149-151. 被引量：4
3[2]赵江华,闫宏飞,王建勇等. 天网中的并行与分布处理. 北京大学,技术报告:PKU CS NET TR2002001, 2002. Http://162.105.80.88/crazysite/home/report(Zhao Jianghua, Yan Hongfei, Wang Jianyong et al. Parallel and distributed processing in WebGather(in Chinese). Peking University, Tech Rep: PKU CS NET TR2002001, 2002.Http://162.105.80.88/crazysite/home/report) 被引量：1
4[3]Yan Hongfei, Wang Jianyong, Li Xiaoming. A dynamically reconfigurable model for a distributed web crawling system. In: 2001 Int'l Conf Computer Networks and Mobile Computing. Beijing, 2001. 157～162 被引量：1
5[4]Marc Najork, Janet L Wiener. Breadth-first search crawling yields high-quality pages. In: Proc of the 10th Int'l World Wide Web Conf. Hongkong, 2001. 114～118 被引量：1
6[5]Li Xiaoming, Wang Jianyong. WebGather: Towards quality and scalability of a web search service. In: Proc of the 10th Int'l World-Wide Web Conf. Hongkong, 2001 被引量：1
7[7]中国互联网络信息中心(CNNIC). 信息服务. 2000. http://www.nic.edu.cn/INFO/cindex.html(CNNIC. Information service(in Chinese), 2000. http://www.nic.edu.cn/INFO/cindex.html) 被引量：1
8[9]Andrei Broder, Ravi Kumar, Farzin Maghoul et al. Graph structure in the web: Experiments and models. In: Proc of the 9th Int'l World-Wide Web Conf. Amsterdam, 2000. 309～320 被引量：1
9[10]Reka Albert, Hawoong Jeong, Albert-Laszlo Barabasi. Internet: Diameter of the world-wide web. Nature, 1999, 401: 130～131 被引量：1
10[11]S R Kumar, P Raghavan, S Rajagopalan et al. Trawling the Web for emerging cyber-communities. In Proc of the 8th Int'l World-Wide Web Conf. Toronto, Canada, 1999. http://www8.org/w8-papers/4a-search-mining/trawling/trawling.html 被引量：1

共引文献42

1陈红勤.隐蔽网络及其应对策略[J].情报理论与实践,2008,31(6):860-863.
2张芨秋.深网的概念、规模及内容[J].中国信息导报,2004(11):57-60. 被引量：8
3程冲,黄水清.利用正则表达式解析新闻网页的算法研究[J].农业图书情报学刊,2005,17(4):5-8. 被引量：7
4葛蓉.网络自组织性的研究与应用[J].图书情报工作,2005,49(5):60-63. 被引量：1
5王晓璐.西部高校怎样更好实现计算机与物理实验的整合[J].贵州民族学院学报（哲学社会科学版）,2005(3):159-160. 被引量：2
6丁国栋,王斌,白硕.Web超链挖掘:中国境内Web图结构研究[J].计算机工程,2005,31(14):24-26. 被引量：6
7李玉玲.厦门高校学生对本地就业意愿的调查[J].中国大学生就业,2005(16):37-38. 被引量：1
8袁顺波.隐蔽网络及应对策略研究[J].图书馆论坛,2005,25(5):189-191. 被引量：9
9何丽娟.网络动态信息资源控制结构体系及相关技术[J].现代情报,2005,25(10):73-74.
10邢美园,陈益君.学科信息门户建设中深层网页资源采集的方法与策略[J].情报资料工作,2005,26(6):53-56. 被引量：10

同被引文献18

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2黄晓冬.Invisible Web研究综述[J].情报科学,2004,22(9):1144-1148. 被引量：19
3杨道玲.深网信息资源采集初探[J].图书馆杂志,2006,25(12):19-22. 被引量：12
4赵朋朋,崔志明,高岭,仲华.关于中国Deep Web的规模、分布和结构[J].小型微型计算机系统,2007,28(10):1799-1802. 被引量：13
5Exploring a Deep Web That Google Cant Grasp [EB/ OL 1- [ 2015-05-12 ]. http ://www.nytimes.com/2009/02/23/tech- nology/internet/23 search, html?_r=-2&th&emc=th.%20Retrieved. 被引量：1
6Sriram Raghavan,Hector Garcia-Molina. Crawling the Hidden Web [EB/OL]. [2015-08-123. http://ilpubs.stan- ford.edu : 8090/456/1/2000-36.pdf. 被引量：1
7Michael K. Bergman. The Deep Web:Surfacing Hid- den Value [EB/OL]. [2015-08-121. http ://quod.lib.umich.edu/ cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451. 被引量：1
8Chang KCC,He B,Li C,et al. Structured databases on the web : Observations and implications [J ]. ACM SIGMOD Record, 2004,33 (3) : 61-70. 被引量：1
9暗网[EB/OL].[2015-08-12].http://zh.wikipedia.org/zh-cn/%E6%gA%97%E7%BD%91. 被引量：1
10Zhao Pengpeng, Cui Zhiming, Gao Ling,Zhong Hua. Vision-based Deep Web Query Interfaces Automatic Extraction [J ]. Journal of Computational Information Systems, 2007,3 (4):1441-1448. 被引量：1

引证文献1

1赵兵,郭才正.深网和搜索引擎[J].情报探索,2016(1):90-92. 被引量：2

二级引证文献2

1肖洋.“伊斯兰国”的暗网攻势及其应对路径[J].江南社会学院学报,2017,19(1):19-23. 被引量：10
2吴跃文.大数据背景下跨境电信网络诈骗犯罪的预警与反制——以冒充公检法诈骗为例[J].湖北警官学院学报,2019,32(3):89-96. 被引量：24

1张浩达.科学、技术、现代艺术及其他[J].科技信息,2002(5):21-23. 被引量：1
2郑国忠.主题相似性计算模型研究与设计[J].科技信息,2008(30):73-74. 被引量：1
3顾益军,于江德,刘群,樊孝忠.受限领域中文文本内容主题概念识别研究[J].计算机工程与应用,2004,40(1):58-59. 被引量：1
4白云.化工企业网站建设的基础知识[J].中国化工贸易,2011,3(2):63-66.
5张云坤.基于数据集成的高校图书馆个性化信息服务研究[J].图书馆工作与研究,2010(7):25-27. 被引量：4
6万云芳.如何有效、便捷地利用网上资源[J].建材工业信息,1998(7):16-17.
7张素梅.提高ORACLE查询速度的设计技巧[J].电脑编程技巧与维护,1999(8):35-35.
8鞠彦辉,许燕.Deep Web信息资源开发策略研究[J].现代情报,2008,28(1):77-80. 被引量：1
9刘学文,韩庆奎,郭敏,张雨强.高中化学学业水平考试与课程标准的一致性分析[J].化学教育,2015,36(17):49-54. 被引量：7
10张建军.移动数据库“小”有作为[J].中国经济和信息化,1999,0(23):30-30.

情报学报

2008年第2期

浏览历史

内容加载中请稍等...

中文Deep Web的大小、质量及分布被引量：1

参考文献12

二级参考文献33

共引文献42

同被引文献18

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中文Deep Web的大小、质量及分布 被引量：1

参考文献12

二级参考文献33

共引文献42

同被引文献18

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中文Deep Web的大小、质量及分布被引量：1