短文本分类技术研究综述被引量：11

A Summary of The Research on Short text Classification

下载PDF

导出

摘要短文本由于特征稀疏并且多歧义等特点,导致难以对其进行高效的分类。本文首先针对短文本的特点,介绍了短文本分类的研究现状,其次对短本文分类涉及到的技术及相关理论进行了阐述,并对文本预处理技术、Word2vec以及LDA模型等文本表示方法进行了重点分析。最后总结了短文本分类未来的发展趋势。 It is difficult to classify the short text efficiently because of its sparse features and multiple ambiguities.In this paper,according to the characteristic of short text,this paper introduces the research status quo of short text classification.Second,the classification of involved technology and related theory are expounded,and the text pretreatment technology,Word2vec and LDA model focuses on text representation methods are analyzed.Finally,summarizes the trend of the development of short text classification.

作者邓丁朋周亚建池俊辉李佳乐 DENG Ding-peng;ZHOU Ya-jian;CHI Jun-hui;LI Jia-le(School of Cyber Science and Technology,Beijing University of Posts and Telecommunications,Beijing 100876,China)

机构地区北京邮电大学网络空间安全学院

出处《软件》 2020年第2期141-144,共4页 Software

关键词短文本分类主题建模分类器文本表示 Short text Classification Topic modeling Classifier Text representation

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1黄畅,郭文忠,郭昆.基于双向量模型的自适应微博话题追踪方法[J].小型微型计算机系统,2019,40(6):1203-1209. 被引量：4
2李涛,王次臣,李华康.知识图谱的发展与构建[J].南京理工大学学报,2017,41(1):22-34. 被引量：140
3万圣贤,兰艳艳,郭嘉丰,徐君,庞亮,程学旗.用于文本分类的局部化双向长短时记忆[J].中文信息学报,2017,31(3):62-68. 被引量：17
4王荣波,谌志群,周建政,李治,高飞.基于Wikipedia的短文本语义相关度计算方法[J].计算机应用与软件,2015,32(1):82-85. 被引量：15
5张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：76
6王飞,谭新.一种基于Word2Vec的训练效果优化策略研究[J].计算机应用与软件,2018,35(1):97-102. 被引量：20
7王勤勤,张玉红,李培培,胡学钢.基于word2vec的跨领域情感分类方法[J].计算机应用研究,2018,35(10):2924-2927. 被引量：14
8王红斌,郜洪奎.基于word2vec和依存分析的事件识别研究[J].软件,2017,38(6):62-65. 被引量：5
9汪静,罗浪,王德强.基于Word2Vec的中文短文本分类问题研究[J].计算机系统应用,2018,27(5):209-215. 被引量：38

二级参考文献78

1张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
2PARK E K, RA D Y, JANG M G. Techniques for improving Web retrieval effectiveness[J]. Information Processing Management, 2005, 41(5): 1207 -1223. 被引量：1
3LIU W Y, HAO T Y, CHEN W, et al. A Web-based platform for user-interactive question-answering[J]. World Wide Web, 2009, 12(2): 107 -124. 被引量：1
4SALTON G, WONG A, YANG C S. A vector space model for auto-matic indexing[J]. Communications of the ACM, 1975, 18 ( 11) : 613 -620. 被引量：1
5PHAN X H, NGUYEN M L, HORIGUCHI S. Learning to classify short and sparse text & Web with hidden topics from large-scale data collections[C] / / Proceedings of the 17 th Conference on World Wide Web. New York: ACM, 2008: 91 -100. 被引量：1
6WANG L, JIA Y, HAN W H. Instant message clustering based on extended vector space model[C] / / Proceedings of the 2nd Interna-tional Conference on Advances in Computation and Intelligence. Berlin: Springer-Verlag, 2007: 435 - 443. 被引量：1
7SAHAMI M, HEILMAN T D. A Web - based kernel function for measuring the similarity of short text snippets[C] / / Proceedings of the 15th Conference on World Wide Web. New York: ACM, 2006: 377 -386. 被引量：1
8YIH W, MEEK C. Improving similarity measures for short segments of text[C] / / Proceedings of the 22nd Conference on Artificial Intel-ligence. Menlo Park: AAAI Press, 2007: 1489 -1494. 被引量：1
9BANERJEE S, RAMANATHAN K, GUPTA A. Clustering short texts using Wikipedia[C] / / Proceedings of the 30th Annual Inter-national ACM SIGIR Conference on on Research and Development in Information Retrieval. New York: ACM, 2007: 787 -788. 被引量：1
10BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3 ( 3): 993 - 1022. 被引量：1

共引文献313

1杜淑颖,杜鹏,丁世飞.基于CNN的假冒域名识别方法研究[J].中国科学技术大学学报,2020,50(7):1019-1025. 被引量：3
2葛艳,郑利杰,杜军威,陈卓.基于BLSTM-Attention神经网络模型的化工事故分类[J].计算机系统应用,2020,29(10):205-210. 被引量：2
3王家琪,张莉.面向文本特征选择的去冗余相对判别准则[J].山西大学学报（自然科学版）,2021,44(4):688-694. 被引量：2
4邱小宇,林杰.基于Twitter数据的地点分类方法研究[J].科技通报,2020(4):67-71.
5熊奥,高畅,赵明辉,张玲玲.基于知识图谱的核电设备健康管理知识建模与分析[J].科技促进发展,2021,17(4):640-649. 被引量：8
6刘鲁吉.类比推理在法律人工智能中的应用——以指导性案例智能推送系统的构建为例[J].法律方法,2019,0(2):118-134. 被引量：4
7朱剑华,李莉,张秋实,李赫,李伟凡,徐健.长江航道信息智能推送服务方法研究[J].测绘地理信息,2022,47(5):110-113.
8应荷香,赵骞,张朝忙,任福,李方林.土地全生命周期管理的知识图谱构建及应用[J].测绘科学,2022,47(6):161-167. 被引量：7
9周锐,邢琳悦.基于知识图谱的城市公共危机信息资源融合研究[J].国家治理现代化研究,2021(1):108-124. 被引量：1
10陈文忠.摩片弹簧钢轧制工艺探讨[J].四川冶金,2000,22(1):52-54.

同被引文献99

1陈波,张华,汪双,王皓冉,刘昭伟,李永龙,谢辉.基于全卷积神经网络的坝面裂纹检测方法研究[J].水力发电学报,2020(7):52-60. 被引量：25
2姜丽婷,古丽拉·阿东别克,马雅静.基于混合卷积网络的短文本实体消歧[J].中文信息学报,2021,35(11):101-108. 被引量：2
3伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
4朱远平,戴汝为.基于SVM决策树的文本分类器[J].模式识别与人工智能,2005,18(4):412-416. 被引量：24
5车君华,冯毅雄,谭建荣,王云.基于决策支持向量机的产品设计知识文档分类研究[J].计算机集成制造系统,2007,13(5):891-897. 被引量：8
6赵铁军,朱聪慧.世界最大的自然语言处理和语音技术实验室——哈尔滨工业大学语言语音教育部-微软重点实验室[J].计算机教育,2007(06S):11-14. 被引量：1
7庞秀丽,冯玉强,姜维.贝叶斯文本分类中特征词缺失的补偿策略[J].哈尔滨工业大学学报,2008,40(6):956-960. 被引量：5
8陈沈焰,吴军华.基于本体的概念语义相似度计算及其应用[J].微电子学与计算机,2008,25(12):96-99. 被引量：31
9宁亚辉,樊兴华,吴渝.基于领域词语本体的短文本分类[J].计算机科学,2009,36(3):142-145. 被引量：41
10施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218

引证文献11

1赵雅欣,郑明洪,石林鑫,向菲,江金洋,尹心.面向电力审计领域的两阶段短文本分类方法研究[J].西南大学学报（自然科学版）,2020,42(10):1-7. 被引量：5
2刘婷,张社荣,李志竑,关炜.基于字符级CNN的调水工程巡检文本智能分类方法[J].水力发电学报,2021,40(6):89-98. 被引量：13
3梁鸿翔,张步烨,李炜卓,程茜雅.结合网络表示学习和文本卷积网络的类案发现[J].计算机工程与应用,2022,58(2):153-160.
4郑承宇,王新,王婷,尹甜甜,邓亚萍.基于Stacking-Bert集成学习的中文短文本分类算法[J].科学技术与工程,2022,22(10):4033-4038. 被引量：8
5范明炜,张云华.基于改进BERT和多阶段TCN的短文本分类[J].智能计算机与应用,2022,12(7):156-159.
6黄承宁,李双梅,景波.基于深度学习表示的医学主题语义相似度计算研究[J].计算机与数字工程,2022,50(6):1149-1152. 被引量：5
7麻之润,费凡,黎芬,董慧洁,彭琳.基于少样本学习的农业领域短文本分类研究[J].湖北农业科学,2022,61(13):151-155.
8王胜漪,刘汪洋,邹佳,蔡惠民.基于知识图谱的结构化数据分类算法研究[J].计算机时代,2022(9):58-62.
9鲁富宇,冷泳林,崔洪霞.基于多元语义特征和图卷积神经网络的短文本分类模型[J].河南科学,2024,42(5):625-630.
10傅薛林,金红,郑玮浩,张奕,陶小梅.知识增强的BERT短文本分类算法[J].计算机工程与设计,2024,45(7):2027-2033.

二级引证文献31

1田丹,沈扬,李明超,韩帅.混凝土坝施工文档实体知识智能挖掘方法[J].水力发电学报,2021,40(6):139-151. 被引量：10
2柳致远,范永胜,张万里,冯骥,李勇,黄靖.常见中文社交平台中网络欺凌语言的检测分析[J].西南师范大学学报（自然科学版）,2021,46(8):86-94. 被引量：1
3陈蓉.基于IK-MD-SA聚类算法的电力数据审计疑点研究[J].价值工程,2022,41(1):174-176.
4赵春菊,资瑛,周宜红,刘全,赵可欣.缆机吊重海量监测数据的吊运混凝土模式识别[J].水力发电学报,2021,40(12):119-128. 被引量：3
5张美晨,赵丽娟,王雅东.基于CPS感知分析的煤岩截割状态识别系统[J].煤炭学报,2021,46(12):4071-4087. 被引量：8
6陈晓娜,高鹏飞,梁越,马应龙.基于类别混合嵌入的电力文本层次化分类方法[J].北京大学学报（自然科学版）,2022,58(1):77-82. 被引量：5
7李明超,吕沅庚,田丹,沈扬.基于改进LDA的水电工程进度管理文本智能分析[J].水力发电学报,2022,41(3):133-141. 被引量：5
8刘婷,张社荣,王超,李志竑,关炜,王枭华.水利施工事故文本智能分析的BERT-BiLSTM混合模型[J].水力发电学报,2022,41(7):1-12. 被引量：10
9董甲平,冶运涛,顾晶晶,曹引,段浩,赵红莉,蒋云钟.滦河流域遥感降水降尺度多时间特性分析[J].水力发电学报,2022,41(8):77-91. 被引量：5
10沈扬,田丹,刘昊,任秋兵,张栋梁,李明超.面向混凝土坝施工管理的知识图谱智能构建[J].水力发电学报,2022,41(9):118-128. 被引量：6

1张瑶,夏晨曦,马敬东.某医院患者投诉信息中服务体验主题建模与情感分析[J].中华医院管理杂志,2019,35(12):1037-1041. 被引量：4
2吕晶,郭思月,滕广青,马卓.基金项目对科学研究的关联影响分析[J].数字图书馆论坛,2019,0(12):18-27. 被引量：5
3陶永才,杨朝阳,石磊,卫琳.池化和注意力相结合的新闻文本分类方法[J].小型微型计算机系统,2019,40(11):2393-2397. 被引量：4
4徐红,刘衍.手机取证的中文短文本分类方法[J].科技创新与应用,2019,0(35):134-135.
5唐可.利用多种建模方法从社交媒体中挖掘短文本结构[J].电脑编程技巧与维护,2020(2):140-142. 被引量：1
6王佩其.值得关注的三类函数零点问题[J].中学生数理化（高一使用）,2019,0(10):3-3.
7刘畅,张志宾,王有群,钟玮鸿,刘云海.基于g-C3N4异质结复合材料光催化降解污染物的研究进展[J].材料导报,2019,33(S02):104-112. 被引量：11
8高金平.税收协定与国内税法的衔接之七——其他特殊类型劳务所得的政策与管理[J].中国税务,2019(12):57-60.
9王烨,于亚辉,王琳,张明炜,黄杰,吴林海.地质样品中贵金属元素的预处理方法研究进展[J].岩矿测试,2020,39(1):15-29. 被引量：19

软件

2020年第2期

浏览历史

内容加载中请稍等...

短文本分类技术研究综述被引量：11

参考文献9

二级参考文献78

共引文献313

同被引文献99

引证文献11

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

短文本分类技术研究综述 被引量：11

参考文献9

二级参考文献78

共引文献313

同被引文献99

引证文献11

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

短文本分类技术研究综述被引量：11