结合语义与统计的特征降维短文本聚类被引量：7

Feature Dimension Reduction Short Text Clustering Combined with Semantic and Statistics

下载PDF

导出

摘要为解决文本聚类时文本的高维稀疏性问题,提出一种语义和统计特征相结合的短文本聚类算法。该算法通过语义词典对词汇的语义相关性分析实现一次降维,结合统计方法进行特征选择实现二次降维,并融合二次降维特征实现短文本聚类。实验结果表明,该算法具有较好的短文本聚类效果和效率。 The primary difficulty of text clustering lies in the multi-dimensional sparseness of texts. A short text clustering algorithm which takes semantic and statistic features into account is proposed. A dimensionality reduction is achieved via the semantic relativity analysis of lexical semantics by semantic dictionary. The second dimension reduction is completed after a feature selection through statistical methods. The short text clustering is obtained with the combination of the two reductions. Experimental result shows that the algorithm has better clustering effect and efficiency on short text.

作者杨婉霞孙理和黄永峰

机构地区甘肃农业大学工学院清华大学电子工程系西北师范大学外国语学院

出处《计算机工程》 CAS CSCD 2012年第22期171-175,共5页 Computer Engineering

基金国家“863”计划基金资助项目(2011AA010704,2012AA011004) 清华大学自主科研基金资助项目“跨媒体分布式垂直搜索及舆情分析的关键技术”(20111081023)

关键词特征选择聚类短文本向量空间模型语义降维 feature selection clustering short text Vector Space ModeI（VSM） semantic dimension reduction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1Hotho A, Maedche A, Staab S. Ontologies Improve Text Document Clustering[C]//Proc. of the IEEE International Conference on Data Mining. Melbourne, Australia: [s. n.], 2003: 541-544. 被引量：1
2Choudhary B, Bhattacharyya P. Text Clustering Using Semantics[C]// Proc. of the llth International World Wide Web Conference. Hawaii, USA: [s. n.], 2002. 被引量：1
3赵鹏,耿焕同,蔡庆生.一种基于语义和统计特征的中文文本特征表示方法[J].小型微型计算机系统,2007,28(7):1311-1313. 被引量：8
4谭松波,王月粉,中文文本分类语料库--TanCorp V1.O[EB/OL].(201O-05-18).http://www.searchforum.org.cn/tansongbo/corpus.htm. 被引量：1
5Rogati M, Yang Yiming. High-performing Feature Text Classification[C]//Proc. of the llth ACM Conference on Information and Knowledge New York, USA: ACM Press, 2002: 659-661. 被引量：1
6Makrehchi M, Kamel M S. Text Classification Selection for International Management. Using SmallNumber of Features[C]//Proc. of the 4th International Conference on Machine Leaming and Data Mining in Pattern Recognition. [S. 1.]: ACM Press, 2005:580-589. 被引量：1
7Mladenic D, Brank J, Grobelnik M, et al. Feature Selection Using Linear Classifier Weights: Interaction with Classification Models[C]//Proc. of the 27th ACM International Conference on Research and Development in Information Retrieval. [S. 1.]: ACM Press, 2004: 234-241. 被引量：1
8王博..文本分类中特征选择技术的研究[D].国防科学技术大学,2009:
9陈彬,洪家荣,王亚东.最优特征子集选择问题[J].计算机学报,1997,20(2):133-138. 被引量：96
10陈友,程学旗,李洋,戴磊.基于特征选择的轻量级入侵检测系统[J].软件学报,2007,18(7):1639-1651. 被引量：78

二级参考文献33

1梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
2刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
3邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
4陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：22
5赵鹏,耿焕同,蔡庆生.一种基于语义和统计特征的中文文本特征表示方法[J].小型微型计算机系统,2007,28(7):1311-1313. 被引量：8
6Wu X，A Heuristic Covering Algorithm for Extension Matrix Approach.Department of Artificial Intelligence，1992年被引量：1
7洪家荣，Proc Int Computer Science Conference’88, Hong Kong，1988年被引量：1
8洪家荣，Int Jnal of Computer and Information Science，1985年，14卷，6期，421页被引量：1
9Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 2002, 34(1): 1- 47. 被引量：1
10D. Lewis, Ringuette. A comparison of two learning algorithms for text categorization. Symposium on Document Analysis and IR,Las Vegas, 1994. 被引量：1

共引文献207

1顾军华,周艳聪,宋洁.基于遗传算法的最小约简算法研究[J].河北科技大学学报,2001,22(3):94-97. 被引量：1
2周金应.基于GA的汽车故障特征选择[J].山东交通科技,2009(6):11-14.
3张立伟,戴磊,侯一凡.一种轻量级入侵检测技术[J].计算机科学,2012,39(S3):36-38. 被引量：3
4伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
5赵云,刘惟一.基于遗传算法的特征选择方法[J].计算机工程与应用,2004,40(15):52-54. 被引量：16
6王芳,谢刚,谢克明.模糊规则挖掘的粗糙集约简算法[J].太原理工大学学报,2004,35(5):517-519.
7李云,叶春晓,李季,刘嘉敏,吴中福.基于特征关联性的特征选择算法研究[J].微型机与应用,2004,23(6):58-60. 被引量：6
8王练,李云,汪血焰.高维特征集选择模型研究[J].重庆邮电学院学报（自然科学版）,2005,17(1):113-116. 被引量：2
9李云,吴中福,叶春晓,李季,刘嘉敏.基于扩张矩阵的模糊特征选择算法[J].模式识别与人工智能,2004,17(4):417-423. 被引量：3
10王春迎,郝士琦,李洪淘,张军.信号特征选择的一种优化算法[J].航空电子技术,2005,36(1):25-28. 被引量：1

同被引文献56

1中国互联网络信息中心.第32次《中国互联网络发展状况统计报告》[EB/OL]. http://www. cnnic. net. cn. 被引量：4
2Yan Tao,Wang Xiwei. Feature extension for short text [C ]//Proceedings of the Third International Symposium on ComputerScience and Computational Technology.Jiaozuo: ACM,2010: 338-341. 被引量：1
3Hu Xia,Sun Nan,Zhang Chao,et al. Exploiting in- ternal and external semantics for the clustering of short texts us- ing world knowledge [C ]//Proceedings of the 18th ACM Confer- ence on Information and Knowledge Management. New York: ACM, 2009 : 919-928. 被引量：1
4Shah Lu, Cuiyou Yao. The Research of Internet Public Opinion' s Tracking Algorithm [ C ]//Electric Information and Control Engineering(ICEICE), 2011: 5536-5538. 被引量：1
5Liu Hong. Intemet public opinion hotspot detection and analysis based on Kmeans and SVM algorithm [C]//ISME, 2010,Vol.1:257-261. 被引量：1
6Shuangyong Song,Qiudan Li,Xiaolong Zheng. De- tecting Popular Topicsin Micro-blogging Based on a User Inter- est-Based Model [C]//NeuralNetworks (IJCNN), the 2012 In- ternational Joint Conference, Brisbane, QLD, 2012. 被引量：1
7Feifei Peng,Xu Qian,Gaoren Li. A Research of Hot Topic DetectionthroughMieroblogging [C]//In the 4th Interna- tional Conference onIntelligent Human-Machine Systems and Cybernetics.IEEE, 2012. 被引量：1
8Jaime T,Daniel R,Ringel M M.TwitterSearch : A comparison of microblog search and Web search [C]//King I, Nejdl W,Li Hang. Proceedings of the Fourth ACM International Conference on Web Search and Data Mining. New York :ACM, 2011 : 35-44. 被引量：1
9张鲁民,贾焰,周斌.基于情感计算的微博突发事件检测方法研究[J].第27次全国计算机安全学术交流会论文集,2012(8):143-145. 被引量：1
10乔良.文本挖掘技术研究及其在信息检索中的应用[J].软件导刊,2009,8(4):160-161. 被引量：7

引证文献7

1陈国兰,孙国梓.微博平台监测网络突发事件的关键问题研究[J].情报探索,2014(8):39-42. 被引量：2
2刘勘,袁蕴英.基于自动编码器的短文本特征提取及聚类研究[J].北京大学学报（自然科学版）,2015,51(2):282-288. 被引量：32
3李晓红,曹林,宿云,马慧芳.融合统计信息与语义相似度的特征扩展算法[J].计算机工程,2017,34(6):177-181.
4段旭磊,张仰森,郭正斌.微博文本聚类中特征扩展策略研究[J].计算机工程与应用,2017,53(13):90-94. 被引量：2
5郑开雨,竹翠.基于上下文语义的朴素贝叶斯文本分类算法[J].计算机与现代化,2018(6):1-6. 被引量：4
6杨超,文展,那晏禾,张宇杰.精准扶贫辅助测评系统设计[J].无线互联科技,2021,18(4):54-55.
7王宇.文本挖掘技术在金融机构客户服务中的应用[J].信息与电脑,2021,33(9):175-180.

二级引证文献40

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2张晓霞,王名扬,贺慧新,罗嗣卿.结合情感分析的突发事件舆情网络关键节点挖掘[J].新疆大学学报（自然科学版）,2015,32(3):336-341. 被引量：6
3章宁.短文本的情报价值评估方法研究[J].舰船电子工程,2016,36(1):108-111.
4刘红光,马双刚,刘桂锋.基于降噪自动编码器的中文新闻文本分类方法研究[J].现代图书情报技术,2016(6):12-19. 被引量：8
5王海艳,曹攀.一种大规模Web文本的分类方法[J].南京邮电大学学报（自然科学版）,2016,36(4):60-67.
6张素智,魏萍萍,徐家兴.面向聚类的堆叠降噪自动编码器的特征提取研究[J].现代计算机,2016,22(22):3-8. 被引量：2
7李阳辉,谢明,易阳.基于降噪自动编码器及其改进模型的微博情感分析[J].计算机应用研究,2017,34(2):373-377. 被引量：12
8李阳辉,谢明,易阳.基于深度学习的社交网络平台细粒度情感分析[J].计算机应用研究,2017,34(3):743-747. 被引量：31
9李森林,石元泉,黄隆华.一种基于SAE和BP网络相结合的人脸识别模型[J].怀化学院学报,2017,36(5):78-82. 被引量：3
10俸世洲,周尚波.基于深度自编码网络的高校招生咨询算法[J].计算机应用,2017,37(11):3323-3329. 被引量：2

1朱黎辉,李晓宁,张莹,蒲华秀,吴纯洁.基于形状特征及纹理特征的中药材检索方法[J].计算机工程与设计,2014,35(11):3903-3907. 被引量：9
2陈爱斌.基于特征车的汽车车型识别[J].信息技术,2004,28(5):44-45. 被引量：9
3韩德来,陈鹏,蔡强富,刘美全.基于非负矩阵分解的电磁超声系统优化研究[J].军械工程学院学报,2013,25(5):35-39.
4张路平,韩建涛,李飚,王鲁平.尺度自适应特征压缩跟踪[J].国防科技大学学报,2013,35(5):146-151. 被引量：5
5丁晓喜,何清波.基于WPD和LPP的设备故障诊断方法研究[J].振动与冲击,2014,33(3):89-93. 被引量：11
6唐振军,杨帆,黄紫晴,劳欢.基于PCA特征距离的图像哈希算法[J].广西师范大学学报（自然科学版）,2016,34(4):9-18. 被引量：11
7罗菁,林树忠,詹湘琳,倪建云.基于2DPCA和EBFNN的指纹识别方法[J].光学精密工程,2008,16(9):1773-1780. 被引量：5
8谷善茂,张妮,刘云龙.基于累积和等距映射的缓变故障检测方法[J].计算机应用与软件,2016,33(6):251-254. 被引量：5
9蒋君杰,马晓贤,彭力.基于视觉传感器网络的飞机识别系统[J].计算机应用研究,2013,30(10):3015-3021.
10李青,蒋冬梅,Ravyse Ilse,Sahli Hichem.基于流形特征的视频情感分析与识别[J].计算机工程与科学,2010,32(12):39-41.

计算机工程

2012年第22期

浏览历史

内容加载中请稍等...

结合语义与统计的特征降维短文本聚类被引量：7

参考文献16

二级参考文献33

共引文献207

同被引文献56

引证文献7

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

结合语义与统计的特征降维短文本聚类 被引量：7

参考文献16

二级参考文献33

共引文献207

同被引文献56

引证文献7

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

结合语义与统计的特征降维短文本聚类被引量：7