-
题名基于PLSI的标签聚类研究
被引量:4
- 1
-
-
作者
吴志媛
钱雪忠
-
机构
江南大学物联网工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2013年第5期1316-1319,共4页
-
基金
国家自然科学基金资助项目(61103129)
江苏省科技支撑计划资助项目(BE2009009)
-
文摘
针对现有的大众分类中标签模糊导致影响用户搜索效率的问题,使用概率潜在语义索引(probabilistic latent semantic indexing,PLSI)模型对标签进行潜在语义分析,经回火期望最大化(tempered exception maximization,TEM)算法训练得到在潜在语义下的条件概率,生成概率向量;在此基础上,提出凝聚式层次k中心点(hierarchical agglomerative K-mediods,HAK-mediods)聚类算法对概率向量进行聚类,并进行了相关对比实验。实验结果表明,HAK-mediods算法的聚类效果要好于传统的聚类算法,从而验证了该算法的可行性和有效性。
-
关键词
大众分类
概率潜在语义索引
语义标签
回火期望最大化算法
凝聚式层次k中心点聚类
-
Keywords
Folksonomy
PLSI
semantic tags
TEM algorithm
HAK-mediods clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主题词对的文档重排方法
被引量:2
- 2
-
-
作者
何婷婷
许婷
瞿国忠
涂新辉
-
机构
华中师范大学计算机科学系
教育部教育信息技术工程研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第11期161-163,共3页
-
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60442005
No.60673040)
+1 种基金
国家社科基金(No.06BYY029)
教育部科学技术研究重点项目(No.105117)。
-
文摘
提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6%和55.8%。
-
关键词
主题词对
概率潜在语义索引
文档重排
-
Keywords
topic word pair
Probabilistic Latent Semantic Indexing (PLSI)
document re-ranking
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名概率潜在语义模型综述
- 3
-
-
作者
陈晓明
-
机构
长江大学计算机学院
-
出处
《现代商贸工业》
2007年第7期160-162,共3页
-
文摘
信息检索本质上是语义检索,而传统信息检索系统都是基于独立词索引,因此检索效果并不理想.概率潜在语义索引是一种新型的信息检索模型,它在潜在语义索引模型思想的基础上,通过EM迭代算法将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度,使得文档之间的语义关系更为明晰。论述了概率潜在语义索引的理论基础,探讨了隐含语义索引在信息处理处理中的应用。
-
关键词
信息检索
潜在语义索引
SVD分解
概率潜在语义索引
-
分类号
G40-03
[文化科学—教育学原理]
-