一种基于动态词汇表的在线LDA算法

Online LDA on Dynamic Vocabulary

下载PDF

导出

摘要目前的在线潜在狄利克雷分布模型(LDA)算法大多是基于固定的词汇表,在实际应用中经常会出现词汇表和处理的语料不匹配的情况,影响了模型的实用性。针对这个现象,在置信传播算法(BP)的框架下,使主题单词分布服从狄利克雷过程,重新推导公式,使得词汇表在模型运行之前为空,并且在处理时不断向词汇表中增加发现的新词。实验证明,这种新的基于动态词汇表的算法不仅使得词汇表与语料的贴合度更高,而且使其在混淆度以及互信息指数这两个指标上能够比基于固定词汇表的LDA模型表现得更加优越。 Most of the online LDA algorithms are based on the fixed vocabulary table currently. The vocabulary table may not often match the processed corpus in practice which has a bad effect on the precision of LDA. To solve this problem,we let the topic words distribution subject to the dirichlet process （DP） and re-deduce the model under the framework of BP algorithm. So that we can make the vocabulary table empty before the algorithm running and it can continually add new words to table. Results from the experiments show that, our new algorithm can make the vocabula- ry table match the corpus better and the dynamic vocabulary table makes the new algorithm achieve better performance on perplexity and PMI compared with other state-of-the-art fixed vocabulary online algorithms.

作者张健伟严建峰刘晓升杨璐

机构地区苏州大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2016年第12期120-124,134,共6页 Computer Science

基金国家自然科学基金(61373092 61572339 61272449) 江苏省科技支撑计划重点项目(BE2014005)资助

关键词潜在狄利克雷分配动态词汇表狄利克雷过程流处理 Latent dirichlet allocation, Dynamic vocabulary,Dirichlet process, Streaming process

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1梅素玉,王飞,周水庚.狄利克雷过程混合模型、扩展模型及应用[J].科学通报,2012,57(34):3243-3257. 被引量：13
2龚声蓉,叶芸,刘纯平,季怡.基于在线消息传递的主题追踪方法[J].计算机学报,2015,38(2):249-260. 被引量：2

二级参考文献81

1Li X, Bilmes J. A Bayesian divergence prior for classifier adaptation. J Mach Learn Res, 2007, 2:275-282. 被引量：1
2Ferguson T. A Bayesian Anal of some nonparametric problems. Ann Stat, 1973, 1:209-230. 被引量：1
3Sethuraman J. A constructive definition of Dirichlet priors. Stat Sinica, 1994, 4:639-650. 被引量：1
4Ferguson T. Prior distributions on spaces of probability measures. The Ann Stat, 1974, 2:615-629. 被引量：1
5Pitman J. Some developments of the Blackwell-MacQueen urn scheme. Statistics, Probability and Game Theory, 1996, 30:245-267. 被引量：1
6Muliere P, Tardella L. Approximating distributions of random functionals of Ferguson-Dirichlet priors. Can J Sta, 1998, 26:283-297. 被引量：1
7Liu J. Nonparametric hierarchical Bayes via sequential imputations. The Ann Stat, 1996, 24:911-930. 被引量：1
8Ishwaran H, Zarepour M. Markov Chain Monte Carlo in approximate Dirichlet and Beta two-parameter process hierarchical models. Biometrika, 2000, 87:371-390. 被引量：1
9Ishwaran H, James L. Some further developments for stick-breaking priors: Finite and infinite clustering and classification. Sankhya Set A, 2003, 65:577-592. 被引量：1
10Ishwaran H, James L. Generalized weighted Chinese restaurant process for species sampling mixture models. Stat Sin, 2003, 13: 1211-1235. 被引量：1

共引文献13

1曹双华.基于机器深度学习的核电厂主给水泵性能预测及提升关键技术研究[J].中国核电,2023,16(1):86-90.
2张晗,徐硕,乔晓东.融合科技文献内外部特征的主题模型发展综述[J].情报学报,2014,33(10):1108-1120. 被引量：16
3殷浩潇,李川.异构信息网络概率模型研究及社区发现算法[J].现代计算机,2016,22(3):3-6. 被引量：1
4姚冬冬,袁方,王煜,刘宇.基于半监督DPMM的新闻话题检测[J].郑州大学学报（理学版）,2016,48(3):63-68. 被引量：2
5王健,白鹤翔,李德玉.基于SIFT和非参贝叶斯的高分辨率遥感影像地物识别算法[J].计算机科学,2017,44(1):289-294. 被引量：1
6曾凡锋,陈可,王宝成,肖珂.无限狄利克雷混合模型的变分学习[J].计算机技术与发展,2017,27(10):19-23.
7季云,王恒,朱龙彪,刘肖.基于DPMM-CHMM的机械设备性能退化评估研究[J].振动与冲击,2017,36(23):170-174. 被引量：8
8何伟林,谢红玲,奉国和.潜在狄利克雷分布模型研究综述[J].信息资源管理学报,2018,8(1):55-64. 被引量：25
9王恒,季云,朱龙彪,刘肖.基于HDP-CHMM的机械设备性能退化评估[J].振动．测试与诊断,2018,38(4):733-737. 被引量：6
10吴昊,范九伦,赖成喆,刘建华.基于攻防博弈和蒙特卡洛模拟的网站防御策略选取方法[J].通信学报,2018,39(8):48-55. 被引量：2

1贾闻俊,张晖,杨春明,赵旭剑,李波.面向产品属性的用户情感模型[J].计算机应用,2016,36(1):175-180. 被引量：4
2杨希,刘晓升,杨璐,严建峰.基于共享内存的并行LDA算法[J].计算机应用与软件,2016,33(3):252-254.
3李卫疆,王真真,余正涛.基于BTM和K-means的微博话题检测[J].计算机科学,2017,44(2):257-261. 被引量：13
4高阳,严建峰,刘晓升.朴素并行LDA[J].计算机科学,2015,42(6):243-246. 被引量：8
5何甜,解建军.基于LDA主题模型的评价对象抽取[J].电脑与信息技术,2017,25(2):11-13.
6王杰,严建峰,刘晓升,杨璐.HDP采样消息传递算法[J].计算机应用研究,2016,33(7):1994-1998. 被引量：1
7王杰,严建峰,刘晓升,杨璐.HDP消息传递算法[J].微电子学与计算机,2016,33(3):142-146.
8邱运芬,张晖,李波,杨春明,赵旭剑.一种基于地理位置人群分类的非参数聚类方法[J].软件导刊,2017,0(2):7-10. 被引量：1
9李改,李磊.基于双向主题模型的协同过滤算法[J].中山大学学报（自然科学版）,2013,52(5):68-72. 被引量：2
10邸亮,杜永萍.LDA模型在微博用户推荐中的应用[J].计算机工程,2014,40(5):1-6. 被引量：29

计算机科学

2016年第12期

浏览历史

内容加载中请稍等...

一种基于动态词汇表的在线LDA算法

参考文献2

二级参考文献81

共引文献13

相关作者

相关机构

相关主题

浏览历史