期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
Semantic composition of distributed representations for query subtopic mining
1
作者 Wei SONG Ying LIU +1 位作者 Li-zhen LIU Han-shi WANG 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2018年第11期1409-1419,共11页
Inferring query intent is significant in information retrieval tasks. Query subtopic mining aims to find possible subtopics for a given query to represent potential intents. Subtopic mining is challenging due to the n... Inferring query intent is significant in information retrieval tasks. Query subtopic mining aims to find possible subtopics for a given query to represent potential intents. Subtopic mining is challenging due to the nature of short queries. Learning distributed representations or sequences of words has been developed recently and quickly, making great impacts on many fields. It is still not clear whether distributed representations are effective in alleviating the challenges of query subtopic mining. In this paper, we exploit and compare the main semantic composition of distributed representations for query subtopic mining. Specifically, we focus on two types of distributed representations: paragraph vector which represents word sequences with an arbitrary length directly, and word vector composition. We thoroughly investigate the impacts of semantic composition strategies and the types of data for learning distributed representations. Experiments were conducted on a public dataset offered by the National Institute of Informatics Testbeds and Community for Information Access Research. The empirical results show that distributed semantic representations can achieve outstanding performance for query subtopic mining, compared with traditional semantic representations. More insights are reported as well. 展开更多
关键词 subtopic mining QUERY INTENT DISTRIBUTED representation SEMANTIC COMPOSITION
原文传递
抑制背景噪声的LDA子话题挖掘算法 被引量:1
2
作者 李静远 丘志杰 +2 位作者 刘悦 程学旗 任彦 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第3期54-60,共7页
专题文章集合是一些拥有相似背景知识的文章集合.为了更好地从专题文章集合内部的复杂信息关联中高效挖掘子话题信息,文中提出了抑制背景噪声的线性判别分析(LDA)子话题挖掘算法BLDA,通过预先抽取专题文档集合的共同背景知识、在迭代过... 专题文章集合是一些拥有相似背景知识的文章集合.为了更好地从专题文章集合内部的复杂信息关联中高效挖掘子话题信息,文中提出了抑制背景噪声的线性判别分析(LDA)子话题挖掘算法BLDA,通过预先抽取专题文档集合的共同背景知识、在迭代过程中重设关键词的产生等方式提高子话题抽取的准确程度.在微信公众账号文章上的系列实验证明,BLDA算法针对有共同背景的专题文章集合的聚类结果显著优于传统的LDA算法,其中主题召回率提高了170%,Purity聚类指标提高了143%,NMI聚类指标提高了160%. 展开更多
关键词 子话题挖掘 线性判别分析 背景噪声抑制
下载PDF
一种无指导的子主题挖掘方法 被引量:1
3
作者 郭程 白宇 +1 位作者 郑剑夕 蔡东风 《中文信息学报》 CSCD 北大核心 2016年第1期50-55,共6页
为了解决用户查询经常存在表意模糊或歧义性等问题,明确用户的查询意图,该文提出了一种无指导的子主题挖掘方法。该方法首先在检索结果文档集中利用ATF×PDF模型挖掘候选主题词;其次,为保证子主题的多样性,该文基于HowNet语义相似... 为了解决用户查询经常存在表意模糊或歧义性等问题,明确用户的查询意图,该文提出了一种无指导的子主题挖掘方法。该方法首先在检索结果文档集中利用ATF×PDF模型挖掘候选主题词;其次,为保证子主题的多样性,该文基于HowNet语义相似度方法对候选主题词进行了层次聚类分析,进而得到潜在主题;最后,利用LCS算法生成多样性子主题。实验结果显示,系统平均D#-nDCG@10达到0.573,结果说明该方法在明确查询主题表意方面取得了较好效果。 展开更多
关键词 子主题挖掘 查询意图 潜在主题
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部