一种结合TF-IDF方法和词向量的短文本聚类算法被引量：12

Short text clustering based on TF⁃IDF and word embedding

下载PDF

导出

摘要随着在线社交网络平台(微信、微博等)和APP(网易、学习强国)的快速发展和应用,产生了海量短文本。针对这些海量短文本,传统的文本聚类方法存在聚类性能较差的问题。本文融合TF-IDF方法和词向量,提出了一种短文本聚类方法。首先,使用TF-IDF方法,提取短文本中TFIDF值靠前的TOP-N关键词作为短文本的特征词集合;其次,在Word2Vec工具的支持下,使用Skip-gram模型在海量语料中训练得到特征词的向量表示;最后,使用WMD距离计算短文本间的相似度。将所提方法应用于4个数据集,实验结果表示,该方法比传统的文本聚类算法具有更好的效果。 With the rapid development and application of online social network platforms(wechat,Weibo,etc.)and APP(Netease,learning power),a large number of short texts have been generated.For the massive short text,the traditional text clustering method has the problem of poor clustering performance.In this paper,we propose a short text clustering algorithm based on TF⁃IDF and word embedding.Firstly,TF⁃IDF method is used to extract TOP⁃N keywords in short texts,which are the TOP⁃N of TF⁃IDF value,as the feature words for these texts.Secondly,with the support of Word2Vec tool,Skip gram model is used to gain the vector representations of feature words by training in large scale corpus.Finally,WMD distance is used to calculate the similarity between two short texts.The experiments show that our algorithm has better effect than the traditional text clustering algorithms.

作者赵晓平黄祖源黄世锋王永和 ZHAO Xiaoping;HUANG Zuyuan;HUANG Shifeng;WANG Yonghe(Information Center,Yunnan Power Grid Co.,Ltd.,Kunming 650011,China;Yunnan Yundian Tongfang Technology Co.,Ltd.,Kunming 650220,China)

机构地区云南电网有限责任公司信息中心云南云电同方科技有限公司

出处《电子设计工程》 2020年第21期5-9,共5页 Electronic Design Engineering

基金国家自然科学基金青年项目(61702442)。

关键词文本聚类短文本 TF-IDF 词向量自然语言处理 text clustering short text TF⁃IDF word embedding natural language process

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1戚后林..基于词频和语义的文本聚类算法研究[D].南京邮电大学,2017:
2黄发良,李超雄,元昌安,汪焱,姚志强.基于TSCM模型的网络短文本情感挖掘[J].电子学报,2016,44(8):1887-1891. 被引量：12
3潘囿丞..基于领域知识的自动答题方法研究[D].哈尔滨工业大学,2016:
4黄栋,徐博,许侃,林鸿飞,杨志豪.基于词向量和EMD距离的短文本聚类[J].山东大学学报（理学版）,2017,52(7):66-72. 被引量：11
5李国,张春杰,张志远.一种基于加权LDA模型的文本聚类方法[J].中国民航大学学报,2016,34(2):46-51. 被引量：10
6叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：107
7杨波,杨文忠,殷亚博,何雪琴,袁婷婷,刘泽洋.基于词向量和增量聚类的短文本聚类算法[J].计算机工程与设计,2019,40(10):2985-2990. 被引量：14
8邢长征,赵全颖,王伟,王星.基于优化密度的耦合空间LDA文本聚类算法研究[J].计算机应用研究,2017,34(7):1966-1970. 被引量：7
9王杨,王非凡,张舒宜,黄少芬,许闪闪,赵晨曦,赵传信.基于TF-IDF和改进BP神经网络的社交平台垃圾文本过滤[J].计算机系统应用,2019,28(3):126-132. 被引量：12
10吴舜尧,邵峰晶,王金龙,孙仁诚,王营.融合语义资源和关键词的文本聚类[J].计算机工程,2014,40(4):223-227. 被引量：7

二级参考文献67

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2高茂庭,王正欧.几种文本特征降维方法的比较分析[J].计算机工程与应用,2006,42(30):157-159. 被引量：16
3夏云庆,黄锦辉,张普.中文网络聊天语言的奇异性与动态性研究[J].中文信息学报,2007,21(3):83-91. 被引量：8
4彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
5Banerjee S, Ramanathan K, Gupta A, et al. Clustering Short Texts Using Wikipedia[C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Amsterdam, Holland: [s. n.], 2007: 788-789. 被引量：1
6Wu Shunyao, Wang Jinlong, Vu H Q, et al. Text Clustering with Important Words Using Normalization[C]//Proceedings of the 10th Annual Joint Conference on Digital Libraries. Gold Coast, Australia: [s. n.], 2010: 393-394. 被引量：1
7Wang Jinlong, Wu Shunyao, Li Gang, et al. Integrating Instance-level and Attribute-level Knowledge into Document Clustering[J]. Computer Science and Information Systems, 2011, 8(3): 635-651. 被引量：1
8Hu Yeming, Milios E E, Blustein J, et al. Enhancing Semi-supervised Document Clustering with Feature Super- vision[C]//Proceedings of the 27th Annual ACM Symposiumon Applied Computing. Trento, Italy: ACM Press, 2012: 929-936. 被引量：1
9Sun Jun, Zhao Wenbo, Xue Jiangwei, et al. Clustering with Feature Order Preferences[J]. Intelligent Data Analysis, 2010, 14(4): 479-495. 被引量：1
10Hotho A, Staab S, Stumme G. Explaining Text Clustering Results Using Semantic Structures[C]//Proceedings of the 7th European Conference on Principles and "Practice of Knowledge Discovery in Databases. Cavtat-Dubrovnik, Croatia: [s. n.], 2003: 217-228. 被引量：1

共引文献162

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
2吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
3侯宇豪,杨维芳,马文骏,王卓,余懿韬,闫香蓉,闫浩文.一种利用VSM检索微地图的方法[J].测绘科学,2023,48(12):225-233.
4何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
5马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
6菡冰.Windows95/NT环境下MFC多线程编程技术Step By Step[J].电脑编程技巧与维护,2000(5):40-48.
7佘广夫,曾涛,唐咏雪.工艺质量在线统计分析软件的设计与开发[J].四川冶金,2000,22(2):60-62.
8ZHANG Yangsen,ZHENG Jia,JIANG Yuru,HUANG Gaijuan,CHEN Ruoyu.A Text Sentiment Classification Modeling Method Based on Coordinated CNN-LSTM-Attention Model[J].Chinese Journal of Electronics,2019,28(1):120-126. 被引量：38
9王琼.一种改进的k-means文本聚类优化方法[J].计算机与现代化,2015(3):48-51.
10曹晓.文本聚类研究综述[J].情报探索,2016(1):131-134. 被引量：16

同被引文献105

1赵铁军,朱聪慧.世界最大的自然语言处理和语音技术实验室——哈尔滨工业大学语言语音教育部-微软重点实验室[J].计算机教育,2007(06S):11-14. 被引量：1
2罗小安,杨春霞.中国科学院重大科技基础设施建设的回顾与思考[J].中国科学院院刊,2012,27(6):710-716. 被引量：27
3李亚红,王素格,李德玉.使用多元语义特征的评论文本主题聚类[J].计算机工程与应用,2013,49(2):188-193. 被引量：2
4陈光.大科学装置的经济与社会影响[J].自然辩证法研究,2014,30(4):118-122. 被引量：37
5李枫林,柯佳.基于深度学习的文本表示方法[J].情报科学,2019,37(1):156-164. 被引量：19
6姚长青,杜永萍.降维技术在专利文本聚类中的应用研究[J].情报学报,2014,33(5):491-497. 被引量：12
7顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
8曹晓.文本聚类研究综述[J].情报探索,2016(1):131-134. 被引量：16
9谢年.基于双线性内插模型的地理空间数据保密技术研究[J].测绘与空间地理信息,2016,39(3):143-145. 被引量：8
10宁建飞,刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术,2016(6):20-27. 被引量：66

引证文献12

1闫博.基于HanLP关键词抽取与句法分析的图谱构建[J].电子元器件与信息技术,2022,6(9):77-80. 被引量：1
2王思源,何先波.基于深度神经网络的医药专利文本聚类模型研究[J].太原师范学院学报（自然科学版）,2021,20(3):23-27. 被引量：3
3王雷,李云亚.基于NER和TF/IDF算法的涉密文件的脱密鉴别方法研究[J].无线互联科技,2021,18(21):110-113. 被引量：1
4蒋延杰,李云红,苏雪平,张蕾涛,贾凯莉,陈锦妮.基于特征权重的词向量文本表示模型[J].西安工程大学学报,2022,36(1):108-114. 被引量：7
5唐钰,唐加山.一种改进的TF-IDF文本分类算法[J].信息技术与信息化,2022(3):13-16. 被引量：8
6李华东,张晶晶,刘细文.重大科技基础设施对学科领域发展影响的计量评价——以对撞机为例[J].科技管理研究,2022,42(8):74-81. 被引量：3
7王小楠,黄卫东.基于类别主题词集的加权相似度短文本分类[J].计算机技术与发展,2022,32(9):95-99. 被引量：1
8范缜,都云程,施水才.文本聚类技术综述[J].软件导刊,2023,22(1):236-242. 被引量：3
9李砚,崔凯.基于聚类算法的网络信息安全检测与跟踪[J].自动化与仪器仪表,2023(11):77-81. 被引量：5
10张爱华,孙嘉鸿.基于TF-IDF算法的运营商客户投诉原因研究[J].北京邮电大学学报（社会科学版）,2024,26(2):39-49.

二级引证文献32

1唐静,杨涛,朱垚,胡孔法.融合共现和语义信息的药对提取方法研究及应用[J].世界科学技术-中医药现代化,2024,26(1):88-98.
2王小栋,王轶峰,宗钰,谢劲鸥,吴敏.基于TF-IDF算法的自动派单系统建设方案[J].自动化应用,2022(3):109-112.
3赵训新,王卫玉,马泽宁,陈启卷.基于知识图谱的水电机组主动维护体系探讨[J].水电与新能源,2022,36(8):23-27. 被引量：3
4李华东,刘细文.中日两国对撞机建设与运行对比:基于历史和科学计量视角[J].科技导报,2022,40(13):65-74.
5胡晓辉.基于特征重要度的文本表示方法及应用[J].信息技术与信息化,2022(10):123-126.
6沈东义,姬银秀,毛火明,郭林,袁秋霞.基于Word2vec和K-Means算法的勘探开发成果文档聚类研究[J].湖北大学学报（自然科学版）,2023,45(1):113-119.
7王心仪,程剑锋,刘育君.基于TF-IDF加权朴素贝叶斯算法的ATP车载设备测试案例分类研究[J].铁路计算机应用,2022,31(12):8-12. 被引量：4
8刘晨旭,阴桂梅,肖易勇,符永灿,盛志林.基于GCN的精神分裂症自动识别诊断模型研究[J].太原师范学院学报（自然科学版）,2023,22(1):32-37.
9柴新茹,余宏杰.基于多算法多因素融合的关键词提取方法[J].枣庄学院学报,2023,40(2):55-61. 被引量：1
10李宁艳.基于机器视觉的英语自动翻译语法错误检测系统研究[J].自动化与仪器仪表,2023(3):279-283.

1李璐萍,赵小兵.基于文本聚类的主题发现方法研究综述[J].情报探索,2020(11):121-127. 被引量：10
2李丽,冯雯,赵龙,钟琳,蒋亚玲,肖国辉.阿莫西林、奥美拉唑联合克林霉素对Hp感染阳性胃溃疡患者血清炎性因子及TFF1、PG水平的影响研究[J].临床医药文献电子杂志,2020,7(72):76-77.
3李应博,张斌.基于改进TFIDF算法的SQL注入攻击检测方法[J].信息工程大学学报,2020,21(1):108-114. 被引量：1
4李静,戴丽娜.基于整数线性模拟的多样性关键信息抽取仿真[J].计算机仿真,2020,37(10):365-368.
5孙琦鑫,饶高琦,荀恩东.基于长时间跨度语料的词义演变计算研究[J].中文信息学报,2020,34(8):10-22. 被引量：1
6贺波,马静,李驰.基于融合特征的商品文本分类方法研究[J].情报理论与实践,2020,43(11):162-168. 被引量：9
7徐艳梅,熊艳,黄杰,许琛,汪磊,赵夏,张璐璐,许传文.肾康注射液(SKI)对大鼠糖尿病肾病的保护作用及可能机制研究[J].内蒙古医科大学学报,2020,42(6):638-642. 被引量：8
8刘欢,周洋,刘帆.基于网络文本分析的沈阳市冰雪旅游品牌塑造研究[J].黑龙江生态工程职业学院学报,2020,33(6):46-48. 被引量：1
9赵雪芹,王青青.在线问答平台用户旅游信息需求研究——以途牛问答社区为例[J].农业图书情报学报,2020,32(10):47-55. 被引量：5
10陈波,谢珺,苗夺谦,王雨竹,续欣莹.基于粗糙集和多通道词向量的中文文本情感特征分析[J].中文信息学报,2020,34(8):94-104. 被引量：3

电子设计工程

2020年第21期

浏览历史

内容加载中请稍等...

一种结合TF-IDF方法和词向量的短文本聚类算法被引量：12

参考文献11

二级参考文献67

共引文献162

同被引文献105

引证文献12

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

一种结合TF-IDF方法和词向量的短文本聚类算法 被引量：12

参考文献11

二级参考文献67

共引文献162

同被引文献105

引证文献12

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

一种结合TF-IDF方法和词向量的短文本聚类算法被引量：12