基于LDA模型的文本聚类检索被引量：7

Text Clustering Retrieval Based on LDA Model

下载PDF

导出

摘要传统的判断2个文档相似性的方法没有考虑到文本背后的语义关联,导致检索系统返回的结果与用户的查询需求之间存在很大的差异。本文提出一种基于LDA主题模型的文本聚类方法,首先介绍LDA主题模型的应用原理,阐述文本挖掘的基本方法,之后构建LDA主题模型,采用Gibbs抽样的方法进行推导,得到特征词的概率分布,最后用优化聚类中心选择的K-means++方法对测试数据集合聚类,并把设计的LDA-Gibbs模型与传统的TF-IDF模型进行聚类评价对比。实验结果表明,该模型能够提高数据的检索效果,具有良好的推广价值。 The traditional method of judging the similarity of two documents does not take into account the semantic relation behind the texts,resulting in a large difference between the results returned by the retrieval system and the user＇s query requirements. This paper presents a text clustering method based on LDA topic model. Firstly,the application principle of LDA topic model is introduced and the basic method of text mining is expounded,and then the LDA topic model is constructed. The Gibbs sampling method is used to derive the probability distribution of the characteristic words. Finally,the sets of test data are clustered with the K-means ＋＋ method chosen by the optimization cluster center. And the designed LDA-Gibbs model is compared with the traditional TF-IDF model. Experimental results show that this model can improve the retrieval effect of data and has good promotional value.

作者李霄野李春生李龙张可佳 LI Xiao-ye;LI Chun-sheng;LI Long;ZHANG Ke-jia(School of Computer and Information Technology,Northeast Petroleum University,Daqing 166618,China)

机构地区东北石油大学计算机与信息技术学院

出处《计算机与现代化》 2018年第6期7-11,共5页 Computer and Modernization

基金黑龙江省教育规划重大课题(GJ20170006)

关键词主题模型文本聚类潜在狄利克雷分配模型聚类评价信息检索 topic model text clustering latent Dirichlet allocation（LDA） cluster evaluation information retrieval（IR）

分类号 TP691.1 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1王鹏,高铖,陈晓美.基于LDA模型的文本聚类研究[J].情报科学,2015,33(1):63-68. 被引量：66
2杨平,王丹,赵文兵.微博网站中面向主题的权威信息搜索技术研究[J].计算机科学与探索,2013,7(12):1135-1145. 被引量：2
3董婧灵..基于LDA模型的文本聚类研究[D].华中师范大学,2012:
4唐晓波,房小可.基于文本聚类与LDA相融合的微博主题检索模型研究[J].情报理论与实践,2013,36(8):85-90. 被引量：44
5李湘东,张娇,袁满.基于LDA模型的科技期刊主题演化研究[J].情报杂志,2014,33(7):115-121. 被引量：66
6焦潞林,彭岩,林云.面向网络舆情的文本知识发现算法对比研究[J].山东大学学报（理学版）,2014,49(9):62-68. 被引量：1
7马军红.文本聚类算法初探[J].电子世界,2012(6):71-72. 被引量：2
8江浩,陈兴蜀,杜敏.基于主题聚簇评价的论坛热点话题挖掘[J].计算机应用,2013,33(11):3071-3075. 被引量：5
9王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：94
10孟雪井,孟祥兰,胡杨洋.基于文本挖掘和百度指数的投资者情绪指数研究[J].宏观经济研究,2016(1):144-153. 被引量：54

二级参考文献138

1王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
2王美今,孙建军.中国股市收益、收益波动与投资者情绪[J].经济研究,2004,39(10):75-83. 被引量：427
3张蕊,邱均平,周黎明.计算机辅助内容分析软件进展研究[J].图书情报工作,2005,49(6):29-32. 被引量：15
4吴江宁,王桂才.文本聚类分析结果可视化方法研究[J].情报学报,2011,30(2):115-120. 被引量：7
5尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
6伍燕然,韩立岩.不完全理性、投资者情绪与封闭式基金之谜[J].经济研究,2007,42(3):117-129. 被引量：210
7王永恒,贾焰,杨树强.基于频繁词集聚类的海量短文分类方法[J].计算机工程与设计,2007,28(8):1744-1746. 被引量：6
8胡雷芳.五种常用系统聚类分析方法及其比较[J].浙江统计,2007(4):11-13. 被引量：75
9何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11
10王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13

共引文献310

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228.
2王劲,孙瑞英.主题聚类视域下地方公共数据管理政策完备性分析[J].知识管理论坛,2024(1):65-78.
3孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
4龚其国,杨丽萍.“中国制造2025”背景下制造业的发展策略研究——基于社会网络分析和文本挖掘[J].科技促进发展,2020,16(8):917-923. 被引量：12
5李磊,李梓阁.基于LDA主题模型的自贸区治理政策文本聚类分析——以辽宁自贸区为例[J].吉首大学学报（社会科学版）,2021,42(2):23-34. 被引量：19
6裴曼如,张立文.基于投资者情绪和深度学习的股票价格趋势预测研究[J].金融发展,2020(1):78-97. 被引量：2
7金丹,张娇娇,李依玲,崔立新.一种改进的协同过滤算法研究——以电影推荐系统为例[J].国际商务（对外经济贸易大学学报）,2020,0(1):128-141. 被引量：6
8温志强,刘楠.从单向线性到迭代闭环:重大公共决策网络舆情风险研判体系构建[J].上海行政学院学报,2021,22(4):30-42. 被引量：9
9张浩.基于向量空间模型的层次聚类算法在文本挖掘中的应用[J].温州职业技术学院学报,2013,13(1):84-86. 被引量：1
10郐媛媛.基于语义的文本相似度算法研究[J].计算机光盘软件与应用,2014,17(9):302-303. 被引量：2

同被引文献42

1高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
2肖勇,郑楷洪,余忠忠,周密,李森,马千里.基于三次指数平滑模型与DBSCAN聚类的电量数据异常检测[J].电网技术,2020,44(3):1099-1104. 被引量：61
3于再富,袁满.融合BabelNet的多语言智能信息检索模型[J].吉林大学学报（信息科学版）,2020,38(1):99-106. 被引量：7
4季建林,张明岛,储展明,严和,翁史,叶维菲,陆铮,姚培芬,张海音.上海心理健康热线电话心理咨询应用评估Ⅱ：电话咨询服务的特点及疗效[J].临床精神医学杂志,1995,5(5):270-271. 被引量：8
5张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：166
6王洪涛,张楠,刘玮.车险电销客户投保体验迫切改进点的数据挖掘[J].保险研究,2011(10):98-104. 被引量：5
7王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：94
8王少鹏,彭岩,王洁.基于LDA的文本聚类在网络舆情分析中的应用研究[J].山东大学学报（理学版）,2014,49(9):129-134. 被引量：28
9徐冬冬,吴韶波.一种基于类别描述的TF-IDF特征选择方法的改进[J].现代图书情报技术,2015(3):39-48. 被引量：13
10路永和,王鸿滨.文本分类中受词性影响的特征权重计算方法[J].现代图书情报技术,2015(4):18-25. 被引量：9

引证文献7

1彭阳,左锋,余芳强,张铭.“工业互联网+”建筑工程文档的知识网络研究[J].建筑经济,2021,42(S01):411-414.
2杨秀璋.基于LDA模型和文本聚类的水族文献主题挖掘研究[J].现代计算机,2019,25(5):13-17. 被引量：16
3杨俊峰,尹光花.基于word2vec和CNN的短文本聚类研究[J].信息与电脑,2019,31(24):20-22. 被引量：4
4王英杰.基于TF-IDF的网络地理文本信息分类研究[J].科学技术创新,2020(10):76-77. 被引量：2
5张秀云.基于用户日志双向聚类的跨语言信息检索系统设计[J].现代电子技术,2021,44(24):158-162. 被引量：2
6彭阳,余芳强.工程资料的自动分类和智能搜索技术探析[J].福建建筑,2022(7):105-108.
7陈邦举.基于12328热线数据的城市交通与公路物流业务研究[J].公路,2024,69(5):356-364.

二级引证文献24

1倪志恒,杨盛菁.我国“养老服务”研究热点分析——基于文献计量方法[J].广西质量监督导报,2021(3):23-24.
2杨秀璋,武帅,夏换,于小民.基于主题挖掘和情感分析的“新冠肺炎疫情”舆情分析研究[J].计算机时代,2020(8):31-36. 被引量：18
3杨鑫,杨典,苏慧慧,宋卓远,杨秀璋,罗子江.基于情感分析的景点评论主题挖掘[J].图书情报导刊,2020,5(8):59-65. 被引量：5
4杨秀璋,武帅,夏换,于小民,范郁锋,丛楠,张懿源.面向贵州省三大战略行动的文本挖掘及LDA模型分析研究[J].现代计算机,2020,26(25):9-14. 被引量：5
5王国桥,牛少彰.基于TF-IDF的社交电商文本信息分类研究[J].网络空间安全,2020,11(12):32-38. 被引量：6
6牛奉高,高旭霞.基于加权网络改进的中文短文本相似性度量模型[J].情报学报,2021,40(3):278-285. 被引量：4
7唐东平,方民俊,吴邵宇.基于上下文的餐饮推荐算法[J].计算机技术与发展,2021,31(4):14-20.
8牛奉高,赵霞,徐倩丽.基于点互信息语义相似性的向量空间模型[J].山西大学学报（自然科学版）,2021,44(2):220-228. 被引量：1
9杨秀璋,武帅,夏换,于小民,范郁锋.企业竞争情报主题挖掘与主题演化研究[J].计算机时代,2021(7):21-27. 被引量：1
10牛太冬,靳达森,张海若,张宪帅.基于机器学习的论文评分研究[J].信息与电脑,2021,33(11):54-56.

1于光华.基于数据驱动的大学生培养质量评价分析[J].现代电子技术,2018,41(9):113-116. 被引量：2
2陈莉,贝芳芳.安徽省绿色智慧城市熵权—聚类评价[J].金陵科技学院学报（社会科学版）,2018,32(2):22-26. 被引量：1
3池云仙,赵书良,罗燕,赵骏鹏,高琳,李超.基于特征隶属度的文本分类相似性度量方法[J].计算机科学,2017,44(11):289-296. 被引量：2
4张弦,杨建林.基于LDA-Gibbs模型的中美网络信息安全立法比较分析[J].大学图书情报学刊,2018,36(2):110-117.
5郭晓利,周自岚,刘耀伟,独健鸿,黄岩.基于DTS-ILDA模型和关联过滤的新闻话题演化分析[J].应用科学学报,2017,35(5):634-646. 被引量：4
6谢磊,王士同.图松弛优化聚类的快速近似提升方法[J].计算机科学与探索,2018,12(4):642-652. 被引量：1
7姜民政,张迪,段天玉,刘金堂,董康兴.有杆泵同井注采系统工况诊断方法研究[J].石油机械,2018,46(1):78-82. 被引量：15
8刘春江,胡正银,方曙,钱力.基于科技知识组织体系的标引框架研究与应用[J].图书馆理论与实践,2018,0(7):55-58. 被引量：2
9杨哲,杨侃,刘朗,苏律文.组合赋权模糊熵-灰云聚类二维河流健康评价[J].华中科技大学学报（自然科学版）,2018,46(5):90-94. 被引量：12
10关白,才让叁智,才华.自然语言处理在信息检索中的应用研究[J].信息与电脑,2017,29(11):35-37. 被引量：5

计算机与现代化

2018年第6期

浏览历史

内容加载中请稍等...

基于LDA模型的文本聚类检索被引量：7

参考文献12

二级参考文献138

共引文献310

同被引文献42

引证文献7

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于LDA模型的文本聚类检索 被引量：7

参考文献12

二级参考文献138

共引文献310

同被引文献42

引证文献7

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于LDA模型的文本聚类检索被引量：7