基于多语义复合表示模型的去离群点文本聚类被引量：3

Research on clustering with removing outliers based on multi-semanticcomposite text representation

下载PDF

导出

摘要目的:将词语的多种语义信息融合,提出多语义复合文本表示模型和基于该模型的文本聚类算法。方法:首先,利用高斯混合模型构建词语的多语义空间,计算词语的不同语义概率权重;其次,运用所有的语义概率加权词嵌入复合形成文本向量;最后,借助文本向量的多语义结构识别文本数据中的离群点,通过剔除离群点提升K-means算法的聚类性能。结果:多语义复合文本向量能够有效地去除冗余,突出文本的语义结构特征;实验表明,与其他文本聚类算法相比,本文提出的算法能够提高约3.57%~44.88%的聚类性能。结论:基于多语义复合表示模型的去离群点文本聚类算法具有更优性能。 Aims:A multi-semantic composite text representation model was proposed by combining multiple semantic information of words and a text clustering algorithm.Methods:Firstly,the multi-semantic spaces of words were constructed by the gaussian mixture model;and the semantic probability weights of words were calculated.Secondly,all the semantic probability weighted words were used to embed compound to form text vectors.Finally,the multi-semantic structure of text vectors was utilized to identify the outlier in text data;and the clustering performance was improved by the K-means algorithm based on removing outliers.Results:Multi-semantic composite document vectors can effectively eliminate redundancy and highlight the semantic structure of texts.Compared with other text representation methods,the clustering performance was improved by 3.57%~44.88%.Conclusions:Experimental results of two datasets show that the proposed model and algorithm have better performance.

作者顾永春武娇金世举顾兴全尹雪婷刘雅萱 GU Yongchun;WU Jiao;JIN Shiju;GU Xingquan;YIN Xueting;LIU Yaxuan(College of Sciences,China Jiliang University,Hangzhou 310018,China;College of Standardization,China Jiliang University,Hangzhou 310018,China)

机构地区中国计量大学理学院中国计量大学标准化学院

出处《中国计量大学学报》 2021年第3期414-420,438,共8页 Journal of China University of Metrology

基金国家自然科学基金项目(No.61302190) 浙江省自然科学基金项目(No.Y201738417)。

关键词词嵌入文本表示文本聚类 K均值聚类离群点 word embedding text representation text clustering K-means outliers

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1洪彩凤,武娇,顾永春,顾兴全,金世举.基于类语义结构表示的文本分类[J].中国计量大学学报,2020(2):215-224. 被引量：1
2Jiliang TANG Xufei WANG Huiji GAO Xia HU Huan LIU.Enriching short text representation in microblog for clustering[J].Frontiers of Computer Science,2012,6(1):88-101. 被引量：14
3靖立峥,吴增源.基于改进K-means算法的电子商务客户细分研究[J].中国计量大学学报,2020,31(4):482-489. 被引量：9

二级参考文献30

1刘英姿,吴昊.客户细分方法研究综述[J].管理工程学报,2006,20(1):53-57. 被引量：85
2Adamic L A,Zhang J,Bakshy E,Ackerman M S. Knowledge sharing and yahoo answers:everyone knows something[A].2008.665-674. 被引量：1
3Hotho A,Staab S,Stumme G. Wordnet improves text document clustering[A].2003.541-544. 被引量：1
4Reforgiato Recupero D. A new unsupervised method for document clustering by using WordNet lexical and conceptual relations[J].Informarion Retrieval,2007,(06):563-579.doi:10.1007/s10791-007-9035-7. 被引量：1
5Hu J,Fang L,Cao Y,Zeng H J,Li H,Yang Q,Chen Z. Enhancing text clustering by leveraging Wikipedia semantics[A].2008.179-186. 被引量：1
6Hu X,Zhang X,Lu C,Park E K,Zhou X. Exploiting Wikipedia as external knowledge for document clustering[A].2009.389-396. 被引量：1
7Blei D M,Ng A Y,Jordan M I. Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003.993-1022. 被引量：1
8Hofraann T. Probabilistic latent semantic indexing[A].1999.50-57. 被引量：1
9Xu W,Liu X,Gong Y. Document clustering based on non-negative matrix factorization[A].2003.267-273. 被引量：1
10Lin C J. Projected gradient methods for non-negative matrix factorization[J].Neural Computation,2007,(10):2756-2779.doi:10.1162/neco.2007.19.10.2756. 被引量：1

共引文献21

1王连喜.微博短文本预处理及学习研究综述[J].图书情报工作,2013,57(11):125-131. 被引量：36
2刘勘,袁蕴英.基于自动编码器的短文本特征提取及聚类研究[J].北京大学学报（自然科学版）,2015,51(2):282-288. 被引量：31
3田刚,何克清,高莹,黄颖.迁移知识辅助的语义稀疏服务聚类方法[J].四川大学学报（工程科学版）,2015,47(5):116-122. 被引量：1
4刘磊,许志刚,蔡海博,王石.基于转发评论的微博语义扩充和分类方法[J].北京工业大学学报,2015,41(10):1528-1536.
5马慧芳,贾美惠子,李晓红,鲁小勇.一种基于标签关联关系的微博推荐方法[J].计算机工程,2016,42(4):197-201. 被引量：9
6Xueliang LIU,Meng WANG,Benoit HUET.Event analysis in social multimedia： a survey[J].Frontiers of Computer Science,2016,10(3):433-446. 被引量：1
7张海涛,王斌君,王靖亚.基于背景重构与边缘相关短文本特征选择方法[J].武汉大学学报（工学版）,2016,49(3):469-475. 被引量：1
8马慧芳,贾美惠子,张迪,蔺想红.融合标签关联关系与用户社交关系的微博推荐方法[J].电子学报,2017,45(1):112-118. 被引量：13
9肖宝,李璞,胡娇娇,蒋运承.基于潜在语义与图结构的微博语义检索[J].计算机工程,2017,34(6):182-188. 被引量：4
10柏文言,张闯,徐克付,张志明.一种融合用户关系的自适应微博话题跟踪方法[J].电子学报,2017,45(6):1375-1381. 被引量：9

同被引文献29

1王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
2王行恒,曹军,邓学,刘垚,高适.基于循环迭代算法改进的TFIDF方法及应用[J].计算机应用与软件,2012,29(11):305-308. 被引量：2
3朱长江,柴秀丽.基于改进遗传算法的模糊聚类研究及应用[J].科学技术与工程,2013,21(10):2863-2866. 被引量：5
4郑霖,徐德华.基于改进TFIDF算法的文本分类研究[J].计算机与现代化,2014(9):6-9. 被引量：26
5朱丽叶,袁登华,张静宜.在线用户评论质量与评论者等级对消费者购买意愿的影响——产品卷入度的调节作用[J].管理评论,2017,29(2):87-96. 被引量：86
6田诗宵,丁立新,郑金秋.基于密度峰值优化的K-means文本聚类算法[J].计算机工程与设计,2017,38(4):1019-1023. 被引量：25
7刘亚冲,唐智灵.基于Softmax回归的通信辐射源特征分类识别方法[J].计算机工程,2018,44(2):98-102. 被引量：16
8邱云飞,赵彬,林明明,王伟.结合语义改进的K-means短文本聚类算法[J].计算机工程与应用,2016,52(19):78-83. 被引量：14
9刘海峰,刘守生,宋阿羚.基于词频分布信息的优化IG特征选择方法[J].计算机工程与应用,2017,53(4):113-117. 被引量：9
10文传军,詹永照.基于样本模糊隶属度归n化约束的松弛模糊C均值聚类算法[J].科学技术与工程,2017,17(36):96-104. 被引量：6

引证文献3

1刘伟,李秀霞.基于Word2vec与K-means的高校图书馆在线评论主题分析[J].图书馆学刊,2022,44(10):88-94.
2尹雪婷,武娇,顾兴全,刘雅萱.基于任务优化表示学习的文本分类[J].中国计量大学学报,2023,34(1):110-119. 被引量：1
3刘雅萱,武娇,顾兴全,尹雪婷.基于多语义文本表示的自适应模糊聚类算法[J].科学技术与工程,2023,23(11):4709-4717. 被引量：2

二级引证文献3

1张冠东,姜荣.基于Renyi熵的文本情感分析[J].微型电脑应用,2023,39(12):16-18.
2孙志华,齐肇江,陈江尧,陈冰恽,肖禹,徐峰.基于模糊分簇的电力调度大数据检索方法[J].电子设计工程,2024,32(16):139-142.
3角远韬,李润梅,王剑.基于模糊自然语言处理的铁路CTC接口文本智能测试方法[J].智能科学与技术学报,2024,6(2):201-209.

1陈璐,汪亚明,韩永华.基于子空间K均值聚类的概率配准算法[J].软件导刊,2021,20(11):100-105. 被引量：1
2苏玲,高婵婵,曹闪闪,阎路宇,孟紫琪,田慧敏,刘敏.长三角地区空气质量国控环境监测点空间代表性评价--以PM_(2.5)为例[J].环境科学学报,2021,41(11):4377-4387. 被引量：10
3张秦,陈铁.基于文本情感分析的高职学生在线课程学习体验研究[J].江苏高职教育,2021,21(3):62-67. 被引量：1
4王晓萌,管志斌,辛伟,王嘉捷.基于深度卷积神经网络的源代码缺陷检测方法[J].清华大学学报（自然科学版）,2021,61(11):1267-1272. 被引量：7
5王紫音,于青.基于BERT-BiGRU模型的文本分类研究[J].天津理工大学学报,2021,37(4):40-46. 被引量：7
6程小蝶,王坤,雷振仙,罗梦雪.山地旅游地旅游流网络结构演化特征——以贵州省为例[J].资源开发与市场,2021,37(12):1497-1504. 被引量：4

中国计量大学学报

2021年第3期

浏览历史

内容加载中请稍等...

基于多语义复合表示模型的去离群点文本聚类被引量：3

参考文献3

二级参考文献30

共引文献21

同被引文献29

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于多语义复合表示模型的去离群点文本聚类 被引量：3

参考文献3

二级参考文献30

共引文献21

同被引文献29

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于多语义复合表示模型的去离群点文本聚类被引量：3