-
题名基于词间语义相关度的搜索结果聚类算法
被引量:2
- 1
-
-
作者
沙芸
张国英
-
机构
北京石油化工学院计算机科学与工程系
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2009年第1期73-76,共4页
-
基金
北京市教育委员会项目
编号KM200610017007
-
文摘
将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高.
-
关键词
搜索结果聚类
词间语义相关度
文档相似度
-
Keywords
search result clustering
semantic relevance between words
document similarity
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主题词匹配频数的搜索引擎结果聚类算法
被引量:2
- 2
-
-
作者
胡诗未
李晓峰
徐伟
-
机构
四川大学计算机学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2011年第6期130-132,共3页
-
基金
国家自然科学基金资助项目(60736046)
-
文摘
搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题词匹配频数的搜索引擎聚类算法,该算法从高频词中筛选出主题词,根据主题词共现情况自动产生类别,其他结果依据满足与类别主题词表的匹配频数的文档数进行聚类。实验结果与STC和LINGO算法相比,搜索质量有所提高。
-
关键词
搜索结果聚类
词间语义相关度
文档相似度
主题词
-
Keywords
search results clustering
semantic relevance between words
document similarity
topic word
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-