面向短文本分析的分布式表示模型被引量：7

A Distributed Representation Model for Short Text Analysis

下载PDF

导出

摘要短文本的分布式表示已经成为文本数据挖掘的一项重要任务.然而,直接应用分布式表示模型Paragraph Vector尚有不足,其根本原因是其在训练过程中并没有利用到语料库级别的信息,从而不能有效改善短文本中语境信息不足的情况.鉴于此,提出了一种面向短文本分析的分布式表示模型——词对主题句向量模型(biterm topic paragraph vector,BTPV),该模型通过将词对主题模型(biterm topic model,BTM)得出的主题信息融入Paragraph Vector中,不仅使得模型训练过程中利用到了全局语料库的信息,而且还利用BTM显性的主题表示完善了Paragraph Vector隐性的空间向量.实验采用爬取到的热门新闻评论作为数据集,并选用K-Means聚类算法对各模型的短文本表示效果进行比较.实验结果表明,基于BTPV模型的分布式表示较常见的分布式向量化模型word2vec和Paragraph Vector来说能取得更好的短文本聚类效果,从而显现出该模型面向短文本分析的优势. The distributed representation of short texts has become an important task in text mining. However, the direct application of the traditional Paragraph Vector may not be suitable, and the fundamental reason is that it does not make use of the information of corpus in training process, so it can not effectively improve the situation of insufficient contextual information in short texts. In view of this, in this paper we propose a novel distributed representation model for short texts called BTPV （biterm topic paragraph vector）. BTPV adds the topic information of BTM （biterm topic model） to the Paragraph Vector model. This method not only uses the global information of corpus, but also perfects the implicit vector of Paragraph Vector with the explicit topic information of BTM. At last, we crawl popular news comments from the Internet as experimental data sets, using K-Means clustering algorithm to compare the models’ representation performance. Experimental results have shown that the BTPV model can get better clustering results compared with the common distributed representation models such as word2vec and Paragraph Vector, which indicates the advantage of the proposed model for short text analysis.

作者梁吉业乔洁曹付元刘晓琳 Liang Jiye;Qiao Jie;Cao Fuyuan;Liu Xiaolin(School of Computer and Information Technology,Shanxi University,Taiyuan 03000;Key Laboratory of Computational Intelligence and Chinese Information Processing（Shanxi University）,Ministry of Education,Taiyuan 03000)

机构地区山西大学计算机与信息技术学院计算智能与中文信息处理教育部重点实验室(山西大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2018年第8期1631-1640,共10页 Journal of Computer Research and Development

基金国家自然科学基金项目(U1435212 61432011 61573229) 山西省重点科技攻关项目(MQ2014-09)~~

关键词分布式表示短文本文本分析句向量词对主题模型 distributed representation short text document analysis paragraph vector biterm topicmodel （BTM）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
2何炎祥,孙松涛,牛菲菲,李飞.用于微博情感分析的一种情感语义增强的深度学习模型[J].计算机学报,2017,40(4):773-790. 被引量：129
3彭泽映,俞晓明,许洪波,刘春阳.大规模短文本的不完全聚类[J].中文信息学报,2011,25(1):54-59. 被引量：35
4王仲远,程健鹏,王海勋,文继荣.短文本理解研究[J].计算机研究与发展,2016,53(2):262-269. 被引量：49

二级参考文献48

1黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
2A.K. JAIN, M.N. MURTY, P.J. FLYNN. Data Clustering: A Review[J]. ACM Computing Surveys, September 1999, 31(3). 被引量：1
3Wang L, Jia Y, Han W H. Instance message clustering based on extended vector space model[EB/OL]. Proceedings of 2^nd Iternational Symposium on Intelligence Computation and Applications. Wuhan, China: Springer, 2007: 435-443. 被引量：1
4He H, Chen B, Xu W R, Guo J. Short text feature extraction and clustering for web topic mining [EB/ OL]. Proceeding of the 3^rd International Conference on Semantics, Knowledge and Grid. Washington D. C. , USA: IEEE, 2007: 382-385. 被引量：1
5http://tech. ifeng. com/internet/detail _ 2010 _ 08/09/ 1600761_0.shtml[DB/OL]. 被引量：1
6HARTIGAN, J. and WONG, M. Algorithm AS136: A k-means clustering algorithm[J]. Applied Statistics, 1979,28: 100-108. 被引量：1
7Horatiu Mocian. Survey of Distributed Clustering Techniques[EB/OL]. 1^st term ISO report, 2009. 被引量：1
8M. E. J. Newman. Power laws, Pareto distributions and Zipf's law [J]. Contemporary Physics, 2005,46 (5):323-351. 被引量：1
9Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis [J]. Journal of the Association of Information Sience, 1990, 41(6) : 391-407. 被引量：1
10Song Y, Wang H, Wang Z, et al. Short text conceptualization using a probabilistic knowledgebase [C]// Proc of the 22nd Int Joint Conf on Artificial Intelligence (IJCAI). Palo Alto, CA: AAAI, 2011:2330-2336. 被引量：1

共引文献330

1陈欣,杨小兵,姚雨虹.基于BLSTM算法和字词融合的文本情感分类方法[J].中国计量大学学报,2020(2):225-232. 被引量：3
2李玉强,黄瑜,孙念,李琳,刘爱华.基于性格情绪特征的改进主题情感模型[J].中文信息学报,2020(7):96-104. 被引量：1
3孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：1
4袁婷婷,杨文忠,仲丽君,张志豪,向进勇.基于性格的微博情感分析模型PLSTM[J].计算机应用研究,2020,37(2):342-346. 被引量：7
5文莎.基于神经网络的文本分类[J].信息通信,2019,0(12):173-174.
6陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
7赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
8徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
9姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
10李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.

同被引文献53

1陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
2曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787. 被引量：83
3单斌,李芳.基于LDA话题演化研究方法综述[J].中文信息学报,2010,24(6):43-49. 被引量：85
4徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：233
5李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：186
6李岩,韩斌,赵剑.基于短文本及情感分析的微博舆情分析[J].计算机应用与软件,2013,30(12):240-243. 被引量：22
7王鹏,高铖,陈晓美.基于LDA模型的文本聚类研究[J].情报科学,2015,33(1):63-68. 被引量：67
8李湘东,曹环,丁丛,黄莉.利用《知网》和领域关键词集扩展方法的短文本分类研究[J].现代图书情报技术,2015(2):31-38. 被引量：17
9刘勘,袁蕴英.基于自动编码器的短文本特征提取及聚类研究[J].北京大学学报（自然科学版）,2015,51(2):282-288. 被引量：32
10祖弦,谢飞.LDA主题模型研究综述[J].合肥师范学院学报,2015,33(6):55-58. 被引量：15

引证文献7

1王景田,杨赴云,张月英.单胺氧化酶抑制剂及其相互作用[J].中国药学杂志,2000,35(5):351-353. 被引量：16
2卢献华,王洪俊.基于大数据计算框架的分布式新闻聚类系统设计[J].计算机科学,2019,46(S11):220-223. 被引量：9
3韩肖赟,侯再恩,孙绵.基于主题模型及其扩展的短文本算法评述[J].计算机应用与软件,2020,37(1):1-7. 被引量：3
4张卫卫,胡亚琦,翟广宇,刘志鹏.基于LDA模型和Doc2vec的学术摘要聚类方法[J].计算机工程与应用,2020,56(6):180-185. 被引量：21
5胡玉兰,赵青杉,牛永洁,陈莉.基于分层Attention机制的Bi-GRU中文文本分类模型[J].长春师范大学学报,2021,40(2):39-45. 被引量：1
6赵天资,段亮,岳昆,乔少杰,马子娟.基于Biterm主题模型的新闻线索生成方法[J].数据分析与知识发现,2021,5(2):1-13. 被引量：4
7贾君霞,王会真,任凯,康文.基于句向量和卷积神经网络的文本聚类研究[J].计算机工程与应用,2022,58(16):123-128. 被引量：4

二级引证文献58

1张良,王现臣,肖银涛,江程.基于文本语义的用户协同过滤文献推荐算法[J].数字技术与应用,2024,42(3):126-129.
2赵旭剑,王崇伟,金培权,张晖,杨春明,李波.面向Web的故事脉络挖掘研究综述[J].中文信息学报,2021,35(11):13-33. 被引量：2
3胡丰林,丁晓娟,杨成,李增智,樊美珍.一种白僵菌中MAO抑制剂的分离纯化和结构鉴定[J].菌物学报,2006,25(2):273-277. 被引量：7
4吴洪,黄真珠,陈秀娟,黄增平,郑勇.肼基单胺氧化酶抑制剂活性与电子结构构效关系的计算分析[J].中国生物化学与分子生物学报,2007,23(11):959-962. 被引量：1
5龙项,李浩,湛延风,冯默.中西药物相互作用探讨[J].中国中西医结合杂志,2009,29(5):457-460. 被引量：23
6左申存.探讨中心摆药过程中存在的问题和改进方向[J].安徽医药,2009,13(11):1434-1435. 被引量：5
7冯超英,陈点点.单胺氧化酶抑制剂与药物及食物间的相互作用及其配伍[J].临床误诊误治,2010,23(4):384-385. 被引量：8
8刘江,张小琴,韩隽,刘俊彪,黄锋,马彬彬,王宇光.香豆素类荧光探针在检测方面的研究进展[J].浙江化工,2010,41(9):27-31. 被引量：6
9魏宏强,康瑞,李爱玲,赵秀娟.阿立哌唑辅助氟伏沙明治疗强迫障碍的临床观察[J].中国医学创新,2013,10(11):7-9. 被引量：3
10裴英,杨中铎,李志忠,舒宗美,师音.药用植物内生真菌的分离及其次生代谢产物生物活性研究[J].中国食品工业,2013(12):64-66.

1Tie-Ke He,Hao Lian,Ze-Min Qin,Zhen-Yu Chen,Bin Luo.PTM： A Topic Model for the Inferring of the Penalty[J].Journal of Computer Science & Technology,2018,33(4):756-767. 被引量：1
2朱得旭.英国轨道交通运输警察局概览[J].现代世界警察,2017,0(6):30-32. 被引量：1
3陈军营,白如江,王效岳,刘自强.中外图情领域大数据近十年(2007-2016)研究现状与发展趋势分析[J].情报科学,2018,36(7):104-110. 被引量：12
4曹奔,夏勉,任志洪,林秀彬,徐升,赖丽足,王琪,江光荣.大数据时代心理学文本分析技术--“主题模型”的应用[J].心理科学进展,2018,26(5):770-780. 被引量：13
5郭爱心,殷保群,李运.基于深度卷积神经网络的小尺度行人检测[J].信息技术与网络安全,2018,37(7):50-53. 被引量：4
6秦洪武,孔蕾.当代英语媒体儒学传播话语分析[J].中国外语,2018,15(1):51-61. 被引量：15
7龙正祥.基于模型构建引领思维发展[J].高中数学教与学,2018(7):42-44. 被引量：1
8Janaína Borges de Almeida,Wilde Gomes Araújo.Threats to Independence in Assurance of Sustainability Reports[J].Journal of Tourism and Hospitality Management,2018,6(1):28-37.
9白雅洁,陈鑫鹏,许彩艳.我国西部地区经济发展空间分布特性及影响因素分析[J].兰州财经大学学报,2018,34(2):86-98. 被引量：3
10王子健,刘晓龙,张宜生,薛飞.高强钢热冲压成形相变模型研究[J].热加工工艺,2018,47(13):119-122. 被引量：2

计算机研究与发展

2018年第8期

浏览历史

内容加载中请稍等...

面向短文本分析的分布式表示模型被引量：7

参考文献4

二级参考文献48

共引文献330

同被引文献53

引证文献7

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

面向短文本分析的分布式表示模型 被引量：7

参考文献4

二级参考文献48

共引文献330

同被引文献53

引证文献7

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

面向短文本分析的分布式表示模型被引量：7