-
题名搜索引擎返回结果自动抽取
- 1
-
-
作者
藕军
任明仑
-
机构
合肥工业大学计算机网络研究所
-
出处
《现代图书情报技术》
CSSCI
北大核心
2007年第2期49-52,共4页
-
文摘
提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链接分别识别出来,然后利用其在标签树上的位置信息分别构造Wrapper。实验结论及与已有方法的比较表明,该方法简单可行且高效。
-
关键词
搜索引擎
WEB信息抽取
包装器生成
HTML标签树
节点相似度
-
Keywords
Search engine Web information extraction Wrapper generation HTML tags tree Nodes similarity
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网络蜘蛛的搜索引擎自动发现
被引量:2
- 2
-
-
作者
藕军
任明仑
靳鹏
-
机构
合肥工业大学计算机网络研究所
-
出处
《现代电子技术》
2007年第12期127-129,共3页
-
文摘
自动发现Web上大量的搜索引擎对于构造大规模元搜索引擎是有益的,提出一种用优化爬行规则的网络蜘蛛自动发现搜索引擎并提取其元信息的方法:通过优化爬行规则的网络蜘蛛爬取页面;利用专门的识别规则从爬取到的页面中识别搜索界面,并提取其相关的元信息。试验结果表明该方法简单有效,自动发现的查准率和查全率分别达到97%和91%。
-
关键词
元搜索引擎
自动发现
网络蜘蛛
元信息
-
Keywords
meta search engine
spider
meta information
automatically discovering
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名中文Deep Web的大小、质量及分布
被引量:1
- 3
-
-
作者
藕军
任明仑
左春荣
章成志
-
机构
合肥工业大学计算机网络研究所
南京大学信息管理系
-
出处
《情报学报》
CSSCI
北大核心
2008年第2期256-260,共5页
-
文摘
Deep Web中包含着大量高质量内容,当前的搜索引擎技术还不能对其进行搜索,研究Deep Web的大小、质量及分布情况将有助于找到对其进行有效搜索的方法和技术。以网络蜘蛛采集的2006年10月的数据为样本,利用统计、概率等定量方法和定性方法,首次对中文Deep Web的大小、质量及分布情况进行调查,得出概况如下:①Deep Web大小比Surface Web的大240倍以上;②包含的文件总数量和总存储量分别为507亿、11700TB;③可搜索数据库数量超过3万个;④内容质量较高;⑤内容主题分布不均匀。
-
关键词
DEEP
WEB
中文
WEB
搜索引擎
-
Keywords
deep Web, Web in Chinese, search engine
-
分类号
G230.7
[文化科学]
TP393
[自动化与计算机技术—计算机应用技术]
-