一种基于密度峰值发现的文本聚类算法被引量：10

A text clustering algorithm based on find of density peaks

导出

摘要提出一种基于密度峰值发现的文本聚类算法,将文本的距离与密度计算转化为文本向量的相似度计算,实现基于密度峰值发现的文本聚类算法。该算法采用空间向量模型表示文本,用余弦公式进行相似度计算,然后求得每个文本的密度和距离。剔除噪音点后,选取聚类中心,将剩下的非中心点划分到距离其最近的聚类中心所在的类簇中去。通过多组对比试验,验证了本方法的可靠性和鲁棒性。 A text clustering algorithm based on find of density peak was proposedin this paper. The algorithm was implemented by the calculation of text distance and density,which was in accordance with calculation of the text vector similarity. VSM（ Vector Space Model） was used to express ducument to obtain the similarity calculation with cosine formula. The cucument work was to find the local density and the distance from points of higher density of each ducument,remove the noise points and select the cluster center. The remainednon-centralpoints were assigned into the cluster which was the nearest to the cluster center. According to several sets of contrast experiments,the density-based text clustering was improved to have an advantage of reliability and robustness.

作者刘颖莹刘培玉王智昊李情情朱振方

机构地区山东师范大学信息科学与工程学院山东交通学院信息科学与电气工程学院

出处《山东大学学报（理学版）》 CAS CSCD 北大核心 2016年第1期65-70,共6页 Journal of Shandong University(Natural Science)

基金国家自然科学基金资助项目(61373148) 国家社会科学基金资助项目(12BXW040) 山东省自然基金资助项目(ZR2012FM038) 山东省优秀中青年科学家奖励基金资助项目(BS2013DX033) 教育部人文社科基金资助项目(14YJC860042) 山东省社科规划项目(12BXWJ01) 山东省高等学校科技计划项目(J12LN21)

关键词密度文本聚类特征项向量距离 density ducument clustering feature term vector distance

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1CHEN X, LIU W, QIU H, et al. APSCAN:a parameter free algorithm for clustering[ J]. Pattern Recognition Let- ters, 2011, 32(7) :973-986. 被引量：1
2雷小锋,谢昆青,林帆,夏征义.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692. 被引量：113
3DHILLON I S, MODHA D S. Concept decompositions for large sparse text data using clustering [ J ]. Machine learning, 2001, 42(1-2) : 143-175. 被引量：1
4索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
5MURTAGH F, CONTRERAS P. Algorithms for hierar- chical clustering : an overview [ J ]. Wiley Interdisciplinary Reviews : Data Mining and Knowledge Discovery, 2012, 2 ( 1 ) : 86-97. 被引量：1
6何晏成..基于近邻传播和凝聚层次的文本聚类方法[D].哈尔滨工业大学,2010:
7TRAN T N, DRAB K, DASZYKOWSKI M. Revised DBSCAN algorithm to cluster data with dense adjacent clusters [ J ]. Chemometrics and Intelligent Laboratory Systems, 2013, 120(2) :92-96. 被引量：1
8JIANG H, LI J, YI S, et al. A new hybrid method based on partitioning-based DBSCAN and ant clustering [ J ]. Expert Systems with Applications, 2011, 38 ( 8 ) : 9373- 9381. 被引量：1
9赵卫中,马慧芳,李志清,史忠植.一种结合主动学习的半监督文档聚类算法[J].软件学报,2012,23(6):1486-1499. 被引量：30
10梁君玲,肖人岳,王向东.一种改进的自适应蚁群聚类算法[J].计算机应用研究,2011,28(4):1263-1265. 被引量：5

二级参考文献89

1张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
2黄永青,梁昌勇,张祥德.基于均匀设计的蚁群算法参数设定[J].控制与决策,2006,21(1):93-96. 被引量：42
3张蕾,曹其新,李杰.一种基于群体智能聚类的设备性能横向比较算法[J].上海交通大学学报,2006,40(3):439-443. 被引量：7
4刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
5雷震,吴玲达,雷蕾,黄炎焱.初始化类中心的增量K均值法及其在新闻事件探测中的应用[J].情报学报,2006,25(3):289-295. 被引量：25
6徐晓华,陈崚.一种自适应的蚂蚁聚类算法[J].软件学报,2006,17(9):1884-1889. 被引量：55
7吴春明,陈治,姜明.蚁群算法中系统初始化及系统参数的研究[J].电子学报,2006,34(8):1530-1533. 被引量：47
8赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20
9徐晓日.网络舆情事件的应急处理研究[J].华北电力大学学报（社会科学版）,2007(1):89-93. 被引量：141
10SEO Y W,SYCARA K.Text clustering for topic detection[D].[S.l.]:Carnegie Mellon University,2004. 被引量：1

共引文献244

1吕政阳,邓涛,张丽艳.一种基于机器视觉的飞机钣金件跨粒度识别方法[J].仪器仪表学报,2020,41(2):195-204. 被引量：10
2张颖,王琳,王丽华,王飞,张苗.基于最小二乘法和聚类的用电数据异常分析算法[J].河北电力技术,2019,0(5):4-6. 被引量：2
3姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
4王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
5胡吉明,胡昌平.基于群体网络行为的用户聚合分析[J].情报杂志,2008,27(7):71-73. 被引量：4
6张云,冯博琴.利用标签的层次化搜索结果聚类方法[J].西安交通大学学报,2009,43(4):18-21. 被引量：5
7魏建香,刘怀,苏新宁.基于遗传算法的文档聚类算法的设计与仿真(英文)[J].南京大学学报（自然科学版）,2009,45(3):432-438. 被引量：4
8乔亚男,齐勇,侯迪.具有孤立项过滤的信息检索查询词的分析方法[J].西安交通大学学报,2009,43(8):6-10.
9晋幼丽,周明全,王学松.SVM和K-means结合的文本分类方法研究[J].计算机技术与发展,2009,19(11):35-37. 被引量：5
10周慧芳.自适应的k-means聚类算法SA-K-means[J].科技创新导报,2009,6(34):4-5. 被引量：3

同被引文献91

1万志华,欧阳为民,张平庸.一种基于划分的动态聚类算法[J].计算机工程与设计,2005,26(1):177-179. 被引量：16
2淦文燕,李德毅,王建民.一种基于数据场的层次聚类方法[J].电子学报,2006,34(2):258-262. 被引量：82
3蔡忠伟,李建东.基于双谱的通信辐射源个体识别[J].通信学报,2007,28(2):75-79. 被引量：84
4孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1070
5王文平.聚类分析及其在图像分割中的应用[M].北京:清华大学出版社.2014. 被引量：1
6SomanKP,范明,牛长勇.数据挖掘基础教程[M].北京:机械工业出版社.2012. 被引量：1
7谭颖,胡瑞飞,殷国富.多密度阈值的DBSCAN改进算法[J].计算机应用,2008,28(3):745-748. 被引量：16
8许丹,柳征,姜文利,周一宇.窄带信号中的放大器“指纹”特征提取:原理分析及FM广播实测实验[J].电子学报,2008,36(5):927-932. 被引量：27
9赵德滨,宋利利,闫纪红.基于模糊聚类分析的特征识别方法及其应用[J].计算机集成制造系统,2009,15(12):2417-2423. 被引量：15
10唐东明,朱清新,杨凡,白勇.基于仿射传播聚类的大规模选址布局问题求解[J].计算机应用研究,2010,27(3):841-844. 被引量：5

引证文献10

1何兆怡.一种基于模拟退火算法的密度聚类方法[J].福建电脑,2016,32(4):130-131.
2杨洁,王国胤,庞紫玲.密度峰值聚类相关问题的研究[J].南京大学学报（自然科学版）,2017,53(4):791-801. 被引量：12
3王鑫,李晓磊,李美慧,桑勋源,汪太阳.基于聚类方法的运动气泡声发射信号分析[J].化工学报,2018,69(7):2964-2971. 被引量：3
4王洋,张桂珠.自动确定聚类中心的密度峰值算法[J].计算机工程与应用,2018,54(8):137-142. 被引量：36
5肖玉徽,楼振凯.考虑客户满意度的物流末端节点选址模型及算法[J].工业工程,2019,22(3):126-131. 被引量：5
6李昕,雷迎科.基于密度峰值算法的通信电台个体识别[J].信号处理,2019,35(7):1242-1249. 被引量：2
7田浩.自动调优技术在智慧校园数据库的应用与优化[J].湖南邮电职业技术学院学报,2021,20(4):26-29. 被引量：2
8王贤明,潘佳玲,胡智文.AR-Grams:一种应用于网络舆情热点发现的文本聚类方法[J].中国传媒大学学报（自然科学版）,2021,28(5):59-65. 被引量：2
9卢建云,张蔚,李林.一种基于动态局部密度和聚类结构的聚类算法[J].山东大学学报（工学版）,2022,52(2):118-127. 被引量：2
10袁逸铭,刘宏志,李海生.基于密度峰值的改进K-Means文本聚类算法及其并行化[J].武汉大学学报（理学版）,2019,65(5):457-464. 被引量：19

二级引证文献82

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2张莉曼,张向先,卢恒,张玲.知识直播平台付费用户群体画像研究[J].图书情报工作,2019,63(5):84-91. 被引量：21
3于玲玲,独家卿,陈龙.改进的K-均值算法在商业客户识别中的应用研究[J].通化师范学院学报,2017,38(10):75-77. 被引量：2
4滕建,乐红兵.基于网格的密度峰值聚类算法研究[J].信息系统工程,2018,31(11):148-150.
5许家楠,张桂珠.自动确定聚类中心的数据竞争算法[J].计算机工程与应用,2018,54(24):136-142. 被引量：1
6徐晓宇,李梅.基于开源大数据的北京地区餐饮业空间分布格局[J].地球信息科学学报,2019,21(2):215-225. 被引量：24
7王治和,黄梦莹,杜辉,秦红武.基于密度峰值与密度聚类的集成算法[J].计算机应用,2019,39(2):398-402. 被引量：5
8何瀚志,朱红,王伟.基于遗传密度峰值聚类的医学图像分割[J].计算机工程与设计,2019,40(3):856-861. 被引量：3
9干佳俪,谭励,宁晓辉,王蓓,孙践知.基于密度最大值聚类的奶酪风味鉴别模型[J].中国乳品工业,2019,47(2):10-14. 被引量：2
10段建民,李帅印,王昶人,冉旭辉.基于激光雷达的道路边界与障碍物检测研究[J].应用激光,2018,38(6):1000-1007. 被引量：14

1王立印,张辉,陈勇.一种基于Dice-Euclidean相似度计算的协同过滤算法[J].计算机应用研究,2015,32(10):2891-2895. 被引量：10
2王秀娟,郑康锋.基于文档空间向量距离的查询扩展[J].计算机工程,2009,35(18):54-56. 被引量：5
3王鹏,史辰方.一种基于赋权向量距离的检索技术[J].中国电子商情（通信市场）,2012(5):26-30. 被引量：1
4田正军,张鸿彦.文本自动分类在邮件过滤系统中的应用[J].郑州经济管理干部学院学报,2005,20(2):90-92.
5杨佳,张金广,杨龙,江萍,魏晓莉.基于本体概念集合相似度的语义Web服务匹配[J].计算机技术与发展,2012,22(8):56-59. 被引量：1
6方延风,陈健.基于词向量距离的相关词变迁研究——以《情报探索》杂志摘要为例[J].情报探索,2015(4):5-7. 被引量：3
7王丽月,叶东毅.面向游戏客服场景的自动问答系统研究与实现[J].计算机工程与应用,2016,52(17):152-159. 被引量：11
8本月新品[J].新电脑,2013(11):20-25.
9为什么选择四核服务器?[J].CAD/CAM与制造业信息化,2007(9):69-69.
10王洪波,荣岩,罗贺,王晓佳.基于流形学习的DNA序列数据挖掘方法研究[J].合肥工业大学学报（自然科学版）,2014,37(8):933-937. 被引量：2

山东大学学报（理学版）

2016年第1期

浏览历史

内容加载中请稍等...

一种基于密度峰值发现的文本聚类算法被引量：10

参考文献16

二级参考文献89

共引文献244

同被引文献91

引证文献10

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

一种基于密度峰值发现的文本聚类算法 被引量：10

参考文献16

二级参考文献89

共引文献244

同被引文献91

引证文献10

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

一种基于密度峰值发现的文本聚类算法被引量：10