自然语言处理中主题模型的发展被引量：233

The Development of Topic Models in Natural Language Processing

下载PDF

导出

摘要主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进行了介绍和分析,着重描述这些工作之间的关联性.LDA作为一个概率生成模型,很容易被扩展成其它形式的概率模型.作者对由LDA派生出的各种模型作了粗略分类,并选择了各类的代表性模型简单介绍.主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布,作者对期望最大化算法在主题模型参数估计中的使用进行了分析,这有助于更深刻理解主题模型发展中各项工作的联系. Topic models are receiving extensive attention in natural language processing. In this field, a topic is regarded as probabilistic distribution of terms. Topic models extract semantic topics using co-occurrence of terms in document level, and are used to transform documents locating in term space to the ones in topic space, obtaining the low dimensional representation of docu- ments. This paper starts from Latent Semantic Indexing （LSI）, the origin of topic models, and describes pLSI and LDA, the fundamental works in the development of topic models, with focus on the relationship among these works. As a generative model, LDA can be easily extended to other models. This paper makes a simple categorization on topic models derived from LDA, and representative models of each category are introduced. Furthermore, EM algorithms in parameter estimation of topic models are analyzed, which help to understand the relationship of works during the development of topic models.

作者徐戈王厚峰

机构地区北京大学计算语言学研究所

出处《计算机学报》 EI CSCD 北大核心 2011年第8期1423-1436,共14页 Chinese Journal of Computers

基金国家自然科学基金(91024009 60973053 90920011)资助~~

关键词自然语言处理主题模型隐性语义索引 LDA 期望最大化算法 GIBBS采样 natural language processing topic model latent semantic indexing latent dirichletallocation expectation maximization algorithm Gibbs sampling

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献62

1Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990. 被引量：1
2Hofmann T. Probabilistic latent semantic indexing//Proceedings of the 22nd Annual International SIGIR Conference. New York: ACM Press, 1999:50-57. 被引量：1
3Blei D, Ng A, Jordan M. Latent Dirichlet allocation. Journal of Machine Learning Research, 2003, 3: 993-1022. 被引量：1
4Griffiths T L, Steyvers M. Finding scientific topics//Proceedings of the National Academy of Sciences, 2004, 101: 5228 5235. 被引量：1
5Steyvers M, Gritfiths T. Probabilistic topic models. Latent Semantic Analysis= A Road to Meaning. Laurence Erlbaum, 2006. 被引量：1
6曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787. 被引量：83
7Teh Y W, Jordan M I, Beal M J, Blei D M. Hierarchical dirichlet processes. Technical Report 653. UC Berkeley Statistics, 2004. 被引量：1
8石晶,胡明,石鑫,戴国忠.基于LDA模型的文本分割[J].计算机学报,2008,31(10):1865-1873. 被引量：54
9Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, 1977, B39(1): 1-38. 被引量：1
10Bishop C M. Pattern Recognition and Machine Learning. New York, USA: Springer, 2006. 被引量：1

二级参考文献55

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
2曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：384
4朱靖波,叶娜,罗海涛.基于多元判别分析的文本分割模型[J].软件学报,2007,18(3):555-564. 被引量：15
5石晶,戴国忠.基于PLSA模型的文本分割[J].计算机研究与发展,2007,44(2):242-248. 被引量：25
6Fabrizio Sebastiani. Text categorization//Alessandro Zanasi. Text Mining and its Applications. Southampton, UK: WIT Press, 2005:109-129 被引量：1
7Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 2002, 34(1): 1-47 被引量：1
8Moschitti A, Basili R. Complex linguistic features for text classification: A comprehensive study//McDonald S, Tait J. Proceedings of the ECIR-04. Sunderland: Springer-Verlag. Sunderland, U. K., 2004:181-196 被引量：1
9Kehagias A, Petridis V, Kaburlasos V G, Fragkou P. A comparison of word- and sense- based text categorization using several classification algorithms. Journal of Intelligent Information Systems, 2003, 21(3): 227-247 被引量：1
10Deerwester S, Dumais S T, Furnas et al. Indexing by latent semantic indexing. Journal of the American Society for Information Science, 1990, 41(6): 391-407 被引量：1

共引文献221

1包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
2王小芳,王瑞芳,张树功.基于最优化控制模型的文本主题域划分[J].吉林大学学报（理学版）,2009,47(4):769-776.
3龚书,瞿有利,田盛丰.基于语义的自动文摘研究综述[J].北京交通大学学报,2009,33(5):126-131. 被引量：4
4赵煜,蔡皖东,樊娜,刘念.采用并行遗传算法的文本分割研究[J].西安交通大学学报,2009,43(12):40-44. 被引量：1
5王朝飞,王凯.主题模型在数字图书馆Web服务中的应用[J].情报理论与实践,2010,33(2):118-120. 被引量：4
6张小平,周雪忠,黄厚宽,冯奇,陈世波.基于词相似性与CRP的主题模型[J].模式识别与人工智能,2010,23(1):72-76. 被引量：8
7杨潇,马军,杨同峰,杜言琦,邵海敏.主题模型LDA的多文档自动文摘[J].智能系统学报,2010,5(2):169-176. 被引量：23
8高隽,谢昭,张骏,吴克伟.图像语义分析与理解综述[J].模式识别与人工智能,2010,23(2):191-202. 被引量：20
9唐颖军,须德,解文杰,薄一航.一种基于类主题空间的图像场景分类方法[J].中国图象图形学报,2010,15(7):1067-1073. 被引量：14
10吴飞,韩亚洪,庄越挺,邵健.图像-文本相关性挖掘的Web图像聚类方法[J].软件学报,2010,21(7):1561-1575. 被引量：10

同被引文献1794

1施仲添,姚叶.运用GIS技术创新规划审批档案管理的实践[J].浙江档案,2021(1):58-59. 被引量：2
2陈玲,林平,段尧清.产业链视角下结合K-means和LDA的专利技术主题挖掘与趋势分析——以虚拟现实技术为例[J].知识管理论坛,2020(3):135-146. 被引量：5
3蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：84
4淦未宇,徐细雄,刘曼.儒家传统与员工雇佣保障:文化的力量[J].上海财经大学学报（哲学社会科学版）,2020,22(1):66-84. 被引量：18
5李卫宁,徐世豪,李巍.二代成长经历与家族企业组合创业:基于烙印理论视角[J].外国经济与管理,2021,43(7):126-140. 被引量：4
6戚聿东,孙昌玲,王化成.企业核心竞争力能够降低权益资本成本吗——基于文本分析的经验证据[J].会计研究,2021(8):94-106. 被引量：26
7沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[J].经济学（季刊）,2019,18(4):1153-1186. 被引量：85
8谭红日,刘沛林,李伯华.基于网络文本分析的大连市旅游目的地形象感知[J].经济地理,2021(3):231-239. 被引量：170
9涂曼.浅析儒家文化之传承与时代价值[J].汉字文化,2022(16):167-169. 被引量：2
10张敏.基于文本挖掘的电商评论情感分析[J].产业与科技论坛,2020,0(2):63-64. 被引量：6

引证文献233

1刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
2汤雁冰.氧化铜铁矿石中伴生金银的回收[J].有色矿山,2000,29(3):28-31. 被引量：2
3阳小兰,钱程.基于主题提取和记忆模型的新闻推荐系统设计[J].计算机与数字工程,2012,40(6):47-50. 被引量：1
4周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
5陈叶旺,王华珍,李海波,钟必能,陈锻生.基于百度百科与文本分类的网络文本语义主题抽取方法[J].小型微型计算机系统,2012,33(12):2605-2610. 被引量：9
6乐小虬,洪娜.面向社会文本流数据探测爆发主题方法浅析[J].现代图书情报技术,2012(10):21-27.
7朱然,李德华.新闻聚合系统中的数据挖掘技术初探[J].电脑知识与技术,2013(1):148-151. 被引量：2
8许冶冰,刘超.基于主题的文档与代码间关联关系的提取研究[J].计算机工程与应用,2013,49(5):70-76. 被引量：3
9方锴.专家检索研究综述[J].科协论坛（下半月）,2013(2):102-104. 被引量：1
10李春英,汤庸,陈国华,汤志康.面向学术社区的专家推荐模型[J].智能系统学报,2012,7(4):365-369. 被引量：11

二级引证文献1206

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228.
2周金连,王静君.早期参与者的力量:对公共事件微博舆情演化周期的研究[J].中国网络传播研究,2021(1):127-152.
3满静.翻译项目管理模式下的财经类新闻翻译记忆库的建立[J].现代英语,2023(20):79-82.
4孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
5周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
6李雅倩,孙玉玲(指导),赵婉雨.基于主题模型和时间序列分析的新兴主题识别与特征关联研究[J].知识管理论坛,2022(3):229-247. 被引量：3
7曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：7
8包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
9赵旭剑,王崇伟,金培权,张晖,杨春明,李波.面向Web的故事脉络挖掘研究综述[J].中文信息学报,2021,35(11):13-33. 被引量：2
10李玉强,黄瑜,孙念,李琳,刘爱华.基于性格情绪特征的改进主题情感模型[J].中文信息学报,2020(7):96-104. 被引量：1

1陈世立,高野军.基于神经网络与贝叶斯的混合文本分类研究[J].情报杂志,2007,26(5):34-36. 被引量：3
2陈世立,高野军.基于神经网络与贝叶斯的混合文本分类研究[J].电脑开发与应用,2006,19(12):27-29.
3包学超,孙强,李生红.隐性语义的SVM文本分类模型[J].信息安全与通信保密,2005,27(5):29-31. 被引量：5
4卢露,魏登月.一种基于隐语义模型的协同过滤算法[J].微电子学与计算机,2015,32(2):73-75. 被引量：5
5张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：166
6毕娟,秦志光.基于概率主题模型的社交网络层次化社区发现算法[J].电子科技大学学报,2014,43(6):898-903. 被引量：5
7关于垃圾短信息整治专项行动阶段性工作情况通报及下一阶段工作要求的通知[J].信息安全与通信保密,2008,30(10):2-2.
8张明慧,王红玲,周国栋.基于LDA主题特征的自动文摘方法[J].计算机应用与软件,2011,28(10):20-22. 被引量：24
9李朝峰,屈颖歌,夏德深,邹海.BP网络改进模型的性能对比研究[J].计算机工程与应用,2003,39(19):120-121. 被引量：9
10江悦,王润生.基于多特征扩展pLSA模型的场景图像分类[J].信号处理,2010,26(4):539-544. 被引量：10

计算机学报

2011年第8期

浏览历史

内容加载中请稍等...

自然语言处理中主题模型的发展被引量：233

参考文献62

二级参考文献55

共引文献221

同被引文献1794

引证文献233

二级引证文献1206

相关作者

相关机构

相关主题

浏览历史

自然语言处理中主题模型的发展 被引量：233

参考文献62

二级参考文献55

共引文献221

同被引文献1794

引证文献233

二级引证文献1206

相关作者

相关机构

相关主题

浏览历史

自然语言处理中主题模型的发展被引量：233