摘要
该文提出一种基于关键词的深度万维网查询方法:用户用关键词的方式提交查询,该方法在线地选择能够反映查询意图并且提供高质量结果的万维网数据库.这种方法既避免了深度万维网数据抓取这一代价高、难度大的操作,又可支持多领域的数据库上的关键词查询,从而能够与现有的搜索引擎实现无缝集成.文中侧重于讨论基于关键词的数据库选择,从以下两个方面解决这一问题所涉及的挑战:(1)提出了一种度量关键词-领域属性关联的相关性模型,并设计了基于随机游动的算法从查询日志中发现潜在的关键词-属性关联;(2)给出了一种新的数据采样方法,并用于基于采样的数据库-查询的相关性模型中,最终解决深度万维网的数据库选择问题.在中文深度万维网真实数据集上的实验表明:提出的方法能够有效地选择与关键词查询相关的数据库,提供高质量的结果.
This paper proposes a keyword-based Deep Web search method: Given keyword queries provided by users,the proposed method on-the-fly selects the databases capturing the queryintent and providing high-quality data.The method,which is much more efficient than Deep Webcrawling,can support keyword search over multiple-domain Deep Web databases,and thus can besmoothly integrated with the existing search engine architecture.In this paper,we focus on key-word-based Deep Web database selection,and studythe research challenges that naturally arisein the proposed method.(1) We introduce an effective model to measure the relevance of database-domain attributes with respect to keyword queries,and propose a random-walk algorithm to compute the relevance fromdatabase query logs.(2) We develop a novel database sampling method for measuring the relevance of databases with respect to queries,in order to select relevant data-bases in the selected domains.We have implemented our methods on real data sets fromthe Chinese Deep Web.The experi mental results show that our methods achieve high effectiveness.
出处
《计算机学报》
EI
CSCD
北大核心
2011年第10期1797-1804,共8页
Chinese Journal of Computers
基金
国家自然科学基金重点项目"支持中文Web研究的基础设施建设和应用中的基本方法与关键技术"(60833003)资助