-
题名一种有效的专题信息集中和检索策略
被引量:4
- 1
-
-
作者
王宇新
刘海峰
郭禾
陈鑫
-
机构
大连理工大学电信学院
大连理工大学软件学院
-
出处
《计算机应用研究》
CSCD
北大核心
2010年第6期2106-2108,共3页
-
文摘
Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页内容相关度判断的HITS专题检索策略,利用专题训练集判断主题相关度,很好地解决了只依靠查询字符串判断的弊端。实验表明,此策略能很好地提高专题信息汇聚精确度和检索的准确率,并且减少了非相关URL的下载量。
-
关键词
HITS算法
锚文本
网页标题
专题相关度
向量模型
专题训练集
-
Keywords
HITS algorithm
anchor text
web page title
relation grade of topic
vector model
topic training collection
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于超链接和DOM结构树的网页标题实时抽取方法
被引量:2
- 2
-
-
作者
张兵
汤进
罗斌
-
机构
安徽大学计算机科学与技术学院
安徽省工业图像处理与分析重点实验室
-
出处
《计算机与现代化》
2015年第8期84-88,共5页
-
基金
国家高技术研究发展计划(863)项目(2014AA015104)
国家自然科学基金资助项目(61472002)
+3 种基金
国家科技支撑计划项目(2012BAH95F00)
安徽省电力公司科技项目(521200130M0U
5212M01353B4)
安徽省科技计划项目科技攻关计划(科技强警)(1301b042002)
-
文摘
网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题,则获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确提取网页正文标题。实验结果表明,本文提出的Web网页标题实时抽取方法,具有实现简单,准确率高等优点。
-
关键词
超链接
网页标题
发布时间
实时
信息抽取
-
Keywords
hyperlink
web page title
publication time
real-time
information extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名“竟然”网页标题的语用预设分析
- 3
-
-
作者
陈丽婉
-
机构
莆田学院外国语言文学系
-
出处
《福建师大福清分校学报》
2011年第6期92-95,共4页
-
基金
福建省教育厅社会科学研究项目(课题名称:语用预设角度下的名词化语法隐喻研究
项目编号:JA10238S)
-
文摘
"竟然"是个使用频率很高的语气副词,也是常用的预设触发语,经常出现在网页标题中。文章从语用预设理论出发,分析了"竟然"网页标题的求异性、经济性、权威性和凸显性等语用功能。
-
关键词
“竟然”
语用预设
网页标题
语用功能
-
Keywords
"Jingran"
pragmatic presupposition
web page title
pragmatic function
-
分类号
H030
[语言文字—语言学]
-