基于迭代训练的古文短文本聚类方法研究

Research on Clustering Method of Ancient Chinese Short Texts Using Iterative Training

下载PDF

导出

摘要传统短文本聚类存在特征关键词稀疏、特征维度高,且忽略文本语义等特点,基于古文《四库全书》和《太平御览》抽取的短文本词条数据集,提出了一种基于BERT+K-means+迭代训练的融合模型对短文本数据集进行聚类研究。使用BERT预训练模型来获取词条短文本的向量表示,将该向量表示作为Kmeans算法的输入得到初始聚簇结果,利用离群值检测算法将聚簇结果划分为离群值和非离群值集合,使用非离群值训练出的分类器对离群值进行再次划分,迭代进行,直至达到停止标准。将BERT词向量模型与TFIDF以及Word2vec词向量模型进行对比实验,对比结果证明BERT预训练模型相较TF-IDF和Word2vec两种词向量表示效果有显著的提升,实验还证明了迭代训练对于本文古文短文本数据集的有效性。 Traditional short text clustering has the characteristics of sparse feature keywords,high feature dimensions,and ignoring text semantics. Based on the short text entry data set extracted from the ancient texts Complete Book Collection in Four Sections and Imperial Readings of the Taiping Era,a fusion model based on BERT(Bidirectional Encoder Representation from Transformers)+ K-means + iterative training is proposed to cluster the short text data sets. Use the BERT pre-training model to obtain the vector representation of the short text of the term,use the vector representation as the input of the K-means algorithm to obtain the initial clustering result,and use the outlier detection algorithm to divide the clustering result into outliers and non-outliers.Use non-outlier training to obtain a classifier,and then use the classifier to divide the outliers again,and iteratively,until the stopping criterion is reached. We compare the BERT word vector model with the TF-IDF and Word2vec word vector models. The comparison results prove that the Bert pre-training model has a significant improvement in the expression effect of the TF-IDF(Term Frequency-Inverse Document Frequency)and Word2vec word vector,and the experiment also proved the effectiveness of iterative training on the short text data set of this article.

作者李晓璐赵庆聪齐林 Li Xiaolu;Zhao Qingcong;Qi Lin(School of Information Management,Beijing Information Science and Technology University,Beijing 100192;School of Economics and Management,Beijing Information Science and Technology University,Beijing 100192;Beijing Key Laboratory of Big Data Decision-making for Green Development,Beijing 100192;Beijing World Urban Circular Economy System(Industry)Collaborative Innovation Center,Beijing 100192)

机构地区北京信息科技大学信息管理学院北京信息科技大学经济管理学院绿色发展大数据决策北京市重点实验室北京世界城市循环经济体系(产业)协同创新中心

出处《现代计算机》 2022年第2期37-43,共7页 Modern Computer

基金国家重点研发计划(2017YFB1400400)。

关键词古文短文本聚类 BERT模型 K-MEANS聚类迭代训练 ancient chinese texts short text clustering BERT model K-means iterative training

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1董成雄..中国优秀传统文化的系统解读和传承建构[D].华侨大学,2016:
2郭颂,马飞.文本分类中信息增益特征选择算法的改进[J].计算机应用与软件,2013,30(8):139-142. 被引量：14
3王月,王孟轩,张胜,杜渂.基于BERT的警情文本命名实体识别[J].计算机应用,2020,40(2):535-540. 被引量：44
4吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量：23
5张群,王红军,王伦文.一种结合上下文语义的短文本聚类算法[J].计算机科学,2016,43(S2):443-446. 被引量：11
6郭太勇.一种基于改进的TF-IDF和支持向量机的中文文本分类研究[J].软件,2016,37(12). 被引量：4
7段丹丹,唐加山,温勇,袁克海.基于BERT模型的中文短文本分类算法[J].计算机工程,2021,47(1):79-86. 被引量：79

二级参考文献78

1张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：67
2尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
3申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,23(3):222-224. 被引量：28
4黄建鹏,陆立强.一种新的相似度标准及其相关的聚类算法[J].复旦学报（自然科学版）,2006,45(2):177-184. 被引量：4
5李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
6罗娜,左万利,袁福宇,张靖波,张慧杰.Using ontology semantics to improve text documents clustering[J].Journal of Southeast University(English Edition),2006,22(3):370-374. 被引量：8
7张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
8史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(6):890-892. 被引量：11
9SOMAN K P.数据挖掘基础教程[M].范明,牛常勇,译.北京:机械工业出版社,2009. 被引量：13
10Salton G,Wong A,Yang C S.A Vector Space Model for Auto matic Indexing[J].Communication of the ACM,1975,18(11):613-620. 被引量：1

共引文献168

1郭子晨,李昆阳,娄嘉鹏.基于深度学习的多通道多任务学习判决预测模型[J].北京电子科技学院学报,2022,30(4):105-114.
2李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：21
3崔君君,于林森,李鹏.协同视觉信息与标注信息图像聚类[J].哈尔滨理工大学学报,2014,19(2):57-62. 被引量：3
4胡朝清.K-means算法研究[J].长春工业大学学报,2014,35(2):139-142. 被引量：4
5武森,冯小东,杨杰,张晓楠.基于MapReduce的大规模文本聚类并行化[J].北京科技大学学报,2014,36(10):1411-1419. 被引量：9
6石慧,贾代平,苗培.基于词频信息的改进信息增益文本特征选择算法[J].计算机应用,2014,34(11):3279-3282. 被引量：16
7顾晓雪,章成志.结合内容和标签的Web文本聚类研究[J].现代图书情报技术,2014(11):45-52. 被引量：8
8王方,成颖,柯青.基于混合模型的文本聚类研究综述[J].情报学报,2015,34(5):536-548.
9张海涛,周爱武.蚁群算法在文本聚类中的应用研究[J].微电子学与计算机,2016,33(1):81-84. 被引量：6
10刘红光,马双刚,刘桂锋.基于降噪自动编码器的中文新闻文本分类方法研究[J].现代图书情报技术,2016(6):12-19. 被引量：8

1王永平.冬至大如年[J].文史知识,2021(12):90-105.
2刘锟,曾曦,邱梓珩,陈周国.基于RoBERTa-WWM和HDBSCAN的文本聚类算法[J].计算机与现代化,2022(3):48-52. 被引量：1
3齐浩翔,马莉媛,朱翌民.基于Word2Vec的疫情虚假信息检测方法[J].智能计算机与应用,2021,11(10):134-138. 被引量：3
4胡基良.蚕豆花开依旧香[J].今日中学生,2022(2):72-73.
5郭恒睿,王中卿,朱巧明,李培峰.基于半监督学习的中文社交文本事件聚类方法[J].中文信息学报,2022,36(2):152-159. 被引量：5
6于营,周显春,贾树文.基于命名实体n-gram图的文本相似性度量[J].现代计算机,2022,28(2):73-77.
7杨成,刘知远,涂存超,石川,孙茂松.Network Embedding:Theories,Methods,and Applications[J].中文信息学报,2022,36(3).
8吴婷.基于EM算法的高斯混合模型在鸢尾花数据集的应用[J].网络安全技术与应用,2022(4):47-49.
9夏智红.一题多变不变初“心”--“三角形四心的向量表示”习题课的教学设计[J].中学数学（高中版）,2022(4):24-26. 被引量：3
10辛明远,刘继山.基于BERTCNN-LDA模型的舆情检测方法——以双减政策为例[J].信息与电脑,2022,34(2):59-63. 被引量：2

现代计算机

2022年第2期

浏览历史

内容加载中请稍等...

基于迭代训练的古文短文本聚类方法研究

参考文献7

二级参考文献78

共引文献168

相关作者

相关机构

相关主题

浏览历史