基于文本挖掘的聚类算法研究被引量：7

Research of Clustering Algorithms Based on Text Mining

下载PDF

导出

摘要随着网络中数据信息的大量积累,如何从海量文本数据中有效提取所需要的信息成为当前文本挖掘的重要内容。本文主要研究K-means和K-medoids两种聚类算法在文本挖掘中的应用,并通过实验利用基于人工判定的指标对两类算法在聚类文档的准确率和召回率方面进行了性能比较。实验结果表明,与K-means算法相比,K-medoids算法无论在准确率还是召回率方面都要高出5个百分点以上,且后者在处理异常数据和噪声数据方面更为鲁棒。 With the acceleration of massive data on Internet, how to extract information needed effectively has been become an important issue in text mining. This paper mainly studies the application of K-means algorithm and K-medoids algorithm in text mining. Experiments have been conducted to evaluate the performance of the algorithms in accuracy rate and the recall rate based on artificial appraisable standard. Experiment results show that K-medoids algorithm is 5 percent higher than K-means algorithm in terms of accuracy and the recall rate, and the former is more robust in dealing with abnormal and noise data.

作者徐东亮董开坤李斌王研芬

机构地区哈尔滨工业大学(威海)网络与信息安全技术研究中心

出处《微计算机信息》 2011年第2期168-169,65,共3页 Control & Automation

关键词文本挖掘 K-MEANS K-medoids 准确率召回率 text mining K-means K-medoids precision rate recall rate

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1焦慧,刘迁,王玉英,贾惠波.优化初始值的K均值中文文本聚类[J].微计算机信息,2009,25(21):142-144. 被引量：6
2Silva, HB, Brito P, da Costa, JP. A partitional clustering algorithm validated by a clustering tendency index based on graph theory. [J].Pattern Recognition,2006,39(5). 被引量：1
3Dash, M.,Liu, H..'1+1>2": merging distance and density based clustering[A].7th International Conference on Database Systems for Advanced Applications (DASFAA 2001)[C].2001. 被引量：1
4Jain AK, Murty MN. Data clustering: A review. ACM Computing Surveys, 1999, 31(3):264-323. 被引量：1
5Shu-Chuan Chu, john F.Roddick. Efficient search approaches of K-medoids based algorithms[A].2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering, vol. 1 [C].2002. 被引量：1
6Bjornar Larsen and Chinatsu A one, Fastand effective text mining using linear-time document clustering. In Proe.of the Fifth ACM SIGKDD Intl Conference on Knowledge Discovery and Data Mining, pages 16-22,1999. 被引量：1

二级参考文献7

1Han J.W.,Kamber M.Data mining concepts and Techniques[M].Beijing:China Machine Press,2001. 被引量：1
2Jain A.K.,Murty M.N.,Flynn P.J.Data clustering:A review[J].ACM Computing Surveys,1999,31(3):265-281. 被引量：1
3Michael Steinbaeh.A comparison of document clustering techniques[C].KDD'2000,Technical report of University of Minnesota,2000. 被引量：1
4Salton G.,Wong A.,Yang C.S.On the spoeifieation of term values in automatic indexing[J].Journal of Documentation,1973,29(4):351-372. 被引量：1
5史忠值.知识发现[M].北京：清华大学出版社,2002.21-56. 被引量：22
6焦慧,刘迁,贾惠波.基于词平台的中文文档实验系统的构建[J].微计算机信息,2008,24(18):171-172. 被引量：1
7钱卫宁,周傲英.从多角度分析现有聚类算法(英文)[J].软件学报,2002,13(8):1382-1394. 被引量：86

共引文献5

1王春艳,程霜梅,杨鑫.基于聚簇样本约减的K-近邻神经网络分类器[J].情报科学,2010,28(10):1547-1549.
2王丹,张兆心,宋颖慧.基于高权重词集的增量聚类算法研究[J].微计算机信息,2011,27(2):170-172. 被引量：1
3蔡静颖.特征文本提取的网络社团划分聚类算法[J].微计算机信息,2012,28(6):182-183.
4刘林浩.网页新闻信息预处理中SST树正文提取方法研究[J].微计算机信息,2012,28(10):466-468.
5李法运,农罗锋.基于向量语义相似度的改进K-Means算法[J].情报科学,2013,31(2):34-37. 被引量：2

同被引文献46

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：57
3王健,陈剑云,张冬波.基于JAVA多线程的IEC60870—5—101规约分层设计[J].科技情报开发与经济,2005,15(7):249-251. 被引量：2
4朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
5胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
6黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
7Jun Zhu, Ni Lao, Ning Chen, et al. Conditional topi- cal coding: an efficient topic model conditioned on rich features [ C KDD' 11, 2011:475 -482. 被引量：1
8JIN Yan, GAO Yang , SHI Ying-huan, et al. P2LSA and P2LSA + :Two paralleled probabilistic latent se- mantic analysis algorithms based on the mapReduce model [ J ]. Computer Science, 2011 ( 6936 ) : 385 -393. 被引量：1
9LI Rui,JU Li,PENG Zhuo, et al. Batch text similarity search with MapReduce [ J ]. Computer Science, 2011 (6612) :412 -423. 被引量：1
10Chakrabarti S, van den Berg M,Dom B. Focused crawling: anew approach to topic-speqific Webresource discovery, In:Proc, ofthe 8th International World Wide Web Conference, Toronto, Cana-da, 1990. 被引量：1

引证文献7

1朱蔷蔷,张桂芸,刘文龙.基于MapReduce框架一种文本挖掘算法的设计与实现[J].郑州大学学报（工学版）,2012,33(5):110-113. 被引量：4
2刘林浩.网页新闻信息预处理中SST树正文提取方法研究[J].微计算机信息,2012,28(10):466-468.
3刘颖,孙冲武.面向兴趣点推荐的时空序列模式挖掘方法[J].微计算机信息,2012,28(10):471-473.
4赵胜钢,李军莲,陈颖.编辑距离算法在科研基金名称数据分析中的应用[J].数字图书馆论坛,2014(5):53-58.
5赵胜钢,陈颖.科研基金数据加工方法研究[J].医学信息学杂志,2014,35(6):38-43. 被引量：1
6赵军民,李芳.基于现代汉语词典的情感词语识别研究[J].河南城建学院学报,2017,26(4):80-85. 被引量：1
7胡亮,夏磊,李伟.基于改进TF-IDF算法的关键词抽取系统[J].厦门理工学院学报,2017,25(5):67-72. 被引量：2

二级引证文献8

1吴建军.网络舆情的云计算监测模式分析与实现[J].电讯技术,2013,53(4):476-481. 被引量：4
2梁凤兰.文本挖掘中一种基于参数估计的语句分块方案研究[J].计算机应用研究,2015,32(4):986-991. 被引量：1
3严嘉铭,黄理灿.基于MapReduce的朴素贝叶斯文本分类研究[J].工业控制计算机,2016,29(4):96-97. 被引量：1
4汪海鹏,郑扬飞.基于特征值的律师推荐算法及改进方案[J].计算机与现代化,2018(10):18-21.
5王若成.大数据环境下学生行为分析系统中关键技术的研究[J].信息技术与信息化,2019(7):196-198. 被引量：3
6伍哲,杨芳.时间加权的TF-LDA学术文献摘要主题分析[J].计算机技术与发展,2020,30(1):194-200. 被引量：4
7姜怡,杨丹萌,张嘉玮,冯帆.西方茶文化译作者笔下的中国形象[J].南京工程学院学报（社会科学版）,2021,21(2):1-5.
8崔迪,张慧,陈晓玲.基于科研基金的科技创新应用数据分析[J].江苏科技信息,2021,38(22):6-10. 被引量：3

1让Windows7的热度降下来[J].电脑爱好者（普及版）,2011(A01):19-19.
2李华锋,吴友蓉.数据挖掘中的预处理技术研究[J].成都纺织高等专科学校学报,2010,27(2):14-16.
3谭京京.数据挖掘中的孤立点检测研究[J].黑龙江科技信息,2016(10):84-84.
4尹亮.基于孤立点的数据挖掘方法在审计中的应用与研究[J].硅谷,2011,4(17):89-89. 被引量：1
5李刚,段隆振,孙焱平.基于信息增益的多连续属性离散化算法改进[J].江西科学,2009,27(2):251-254.
6邢培.基于数据挖掘的数据选择[J].消费电子,2013(18):99-99.
7黄凯锋.一种基于聚类分析的入侵检测系统模型[J].科技信息,2011(35):150-151.
8艾尼帕.分布式数据库查询优化策略研究[J].新疆教育学院学报,2004,20(4):96-101. 被引量：2
9笔记本[J].数码,2007(5):221-221.
10一台视频制作PC[J].家庭电脑世界,2004(06X):64-64.

微计算机信息

2011年第2期

浏览历史

内容加载中请稍等...

基于文本挖掘的聚类算法研究被引量：7

参考文献6

二级参考文献7

共引文献5

同被引文献46

引证文献7

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于文本挖掘的聚类算法研究 被引量：7

参考文献6

二级参考文献7

共引文献5

同被引文献46

引证文献7

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于文本挖掘的聚类算法研究被引量：7