期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
一种有效的专题信息集中和检索策略 被引量:4
1
作者 王宇新 刘海峰 +1 位作者 郭禾 陈鑫 《计算机应用研究》 CSCD 北大核心 2010年第6期2106-2108,共3页
Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页... Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页内容相关度判断的HITS专题检索策略,利用专题训练集判断主题相关度,很好地解决了只依靠查询字符串判断的弊端。实验表明,此策略能很好地提高专题信息汇聚精确度和检索的准确率,并且减少了非相关URL的下载量。 展开更多
关键词 HITS算法 锚文本 网页标题 专题相关度 向量模型 专题训练集
下载PDF
基于超链接和DOM结构树的网页标题实时抽取方法 被引量:2
2
作者 张兵 汤进 罗斌 《计算机与现代化》 2015年第8期84-88,共5页
网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本... 网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题,则获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确提取网页正文标题。实验结果表明,本文提出的Web网页标题实时抽取方法,具有实现简单,准确率高等优点。 展开更多
关键词 超链接 网页标题 发布时间 实时 信息抽取
下载PDF
“竟然”网页标题的语用预设分析
3
作者 陈丽婉 《福建师大福清分校学报》 2011年第6期92-95,共4页
"竟然"是个使用频率很高的语气副词,也是常用的预设触发语,经常出现在网页标题中。文章从语用预设理论出发,分析了"竟然"网页标题的求异性、经济性、权威性和凸显性等语用功能。
关键词 “竟然” 语用预设 网页标题 语用功能
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部