-
题名增加类簇级对比的SCCL文本深度聚类方法研究
- 1
-
-
作者
李婕
张智雄
王宇飞
-
机构
中国科学院文献情报中心
中国科学院大学经济与管理学院信息资源管理系
-
出处
《数据分析与知识发现》
EI
CSCD
北大核心
2024年第3期98-109,共12页
-
基金
国家科技图书文献中心专项(项目编号:2023XM42)的研究成果之一。
-
文摘
【目的】改进SCCL模型在文本深度聚类任务上的效果,提出一种新的基于SCCL的文本深度聚类模型ISCCL。【方法】ISCCL模型基于句向量预训练语言模型对输入文本进行数据增强和编码获取两组增强表征,在SCCL模型的基础上增加两层非线性网络,将增强表征降维到维度与聚类数量相同的类簇特征空间。从列空间的角度构造正负簇对进行对比学习,引导模型挖掘对聚类任务有用的特征,并减少假正样本产生的影响。【结果】在AgNews、Biomedical、StackOverflow、20NewsGroups和zh10共5种基准数据集中,ISCCL模型的聚类准确率分别达到88.89%、48.74%、78.17%、56.97%和86.42%,较SCCL模型提升0.69%~2.67%。【局限】需要预先设定类簇特征空间维度(与聚类数目K值相同),然而在实际应用中往往很难明确原始数据的具体聚类数目,应当根据数据情况适当调整。【结论】ISCCL模型能够有效提取类簇特征,在SCCL模型的基础上提升了文本深度聚类效果。
-
关键词
对比学习
深度聚类
SCCL
类簇特征学习
表示学习
-
Keywords
Contrastive Learning
Deep Clustering
SCCL
Cluster Feature Learning
Representative Learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-