基于单词相似度的文本聚类被引量：9

Text clustering based on word similarity

下载PDF

导出

摘要研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点。针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然后利用产生的单词类作为向量空间的项表示文本降低了向量空间的维度,最后采用基于划分聚类方法对文本聚类。实验结果表明,相对于传统基于向量空间模型的聚类算法,该算法具有较好的聚类效果。 Researching currently text clustering algorithm based on vector space model, found that these algorithms have high dimen- sionality and neglecting semantic relations between words shortcomings. Considering these problems, a novel text clustering algorithm based on word similarity （TCWS） is proposed. Firstly, the algorithm uses word similarity to classified words, and then use word cluster as items of vector space that reduced dimension of text vector space. Finally, through partition clustering method cluster text. The experiments results show that, compared with traditional algorithm based on vector space model, the TCWS algorithm improves the quality of the cluster.

作者李星毅曾路平施化吉

机构地区江苏大学计算机科学与通信工程学院北京交通大学电子信息工程学院南京航空航天大学计算机应用研究所

出处《计算机工程与设计》 CSCD 北大核心 2009年第8期1966-1968,共3页 Computer Engineering and Design

基金国家火炬计划基金项目(2004EB33006[0]) 江苏省高校自然科学指导性计划基金项目(05JKD520050)

关键词文本聚类单词相似度向量空间模型单词类向量空间文本表示 text clustering word similarity vector space model word cluster vector space text respresentation

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
2秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
3Steinbsch M,Karypis G,Kumar V.A comparison of document clustering techniques[C].Proceedings of the 6th ACM-SIGKDD International Conference on Text Mining.Boston,MA,USA:ACM Press,2000:103-122. 被引量：1
4Han JW,Kamber M.Data mining concepts and techniques[M].Beijing,China:Machine Press,2001:223-259. 被引量：1
5UCI KDD archive[EB/OL].http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html. 被引量：1
6Wan Xiaojun.A novel document similarity measure based on earth mover's distance[J].information Science,2007,177:3718-3730. 被引量：1
7荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
8任江涛,孙婧昊,施潇潇,黄焕宇,印鉴.一种用于文本聚类的改进的K均值算法[J].计算机应用,2006,26(B06):73-75. 被引量：24

二级参考文献55

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
2易丽萍,竹勇,雷小春.知网在词语相似度计算方面的应用[J].信息技术与信息化,2005(1):24-26. 被引量：11
3赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
4余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
5章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
6荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
7董振东董强.[EB/OL].知网.http://www.keenage.com,. 被引量：11
8XU R,Donald Wunsch Ⅱ.Survey of Clustering Algorithms[J].IEEE Transactions on Neural Networks.2005,16(3):645 -678. 被引量：1
9ZHAO Y,KARYPIS G.Topic-driven Clustering for Document Datasets[A].SIAM 2005 Data Mining Conference[C].St.Louis,Missouri,2005.358 -369. 被引量：1
10DHILLON I,KOGAN J,NICHOLAS C.Feature Selection and Document Clustering[A].2002 CADIP Research Symposium Proceedings[C].2002.73-100. 被引量：1

共引文献131

1钟冬,朱怡安,王云岚.一种新的基于隐式经验的服务发现模型[J].西北工业大学学报,2009,27(1):71-76.
2谌志群,周其力.基于综合语义的XML文档相似度计算方法[J].杭州电子科技大学学报（自然科学版）,2009,29(3):64-67.
3高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
4秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
5周文,徐国梁.翻译记忆中语句相似度计算方法的研究[J].计算机应用,2007,27(5):1210-1213. 被引量：6
6刘艳丽,刘希云.一种基于密度的K-均值算法[J].计算机工程与应用,2007,43(32):153-155. 被引量：15
7窦永香,赵捧未,秦春秀.基于本体的对等网语义检索系统[J].现代图书情报技术,2007(12):25-29. 被引量：6
8徐丽平,张俊卿,姜利群,赵亮.基于知识库的知识发现的研究[J].计算机工程与设计,2008,29(10):2689-2691. 被引量：10
9冯少荣,肖文俊.基于语义距离的高效文本聚类算法[J].华南理工大学学报（自然科学版）,2008,36(5):30-37. 被引量：15
10胡金柱,俞小娟,李琼,周毕吉.基于规则库和聚类分析的复句短语字段的自动识别研究[J].华中师范大学学报（自然科学版）,2008,42(2):190-194. 被引量：9

同被引文献74

1肖宇,于剑.Gap statistic与K-means算法[J].计算机研究与发展,2007,44(z2):176-180. 被引量：7
2尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
3蒋凡,高俊波,张敏,王煦法.BBS中主题发现原型系统的设计与实现[J].计算机工程与应用,2005,41(31):151-153. 被引量：19
4荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
5FAHIM A.M,SALEM A.M,TORKEY F.A,RAMADAN M.A.An efficient enhanced k-means clustering algorithm[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(10):1626-1633. 被引量：30
6赵鹏,蔡庆生.一种基于《知网》的中文文本聚类算法的研究[J].计算机工程与应用,2007,43(12):162-163. 被引量：7
7王毅,唐歆瑜,谢治华.基于向量空间模型的毕业论文相似性辨识研究[J].科学技术与工程,2007,7(9):2111-2113. 被引量：1
8彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
9Wang Tai-Yue,Chiang Huei-Min.One-against-one fuzzy sup- port vector machine classifier:An approach to text categoriza- tion[J].Expert Systems with Applications,2009,36(6):10030- 10034. 被引量：1
10Ko Youngjoong,Seo Jungyun.Text classification from unlabeled documents with bootstrapping and feature projection techniques [J].Information Processing and Management,2009,45(1):70-83. 被引量：1

引证文献9

1杨云,吴亚男,李健.基于潜在特征词的文本相似度计算方法[J].计算机工程与设计,2011,32(2):572-575. 被引量：5
2王莹莹,任贤,龙鹏飞.中文短语文本相似度计算新方法[J].软件导刊,2011,10(1):79-81. 被引量：2
3吴亚男,杨云.一种新型的网络社区高影响力主题提取方法[J].陕西科技大学学报（自然科学版）,2011,29(1):138-141.
4马力,张娟.基于社团结构的文本聚类算法研究[J].西安邮电学院学报,2013,18(2):111-115. 被引量：1
5朱云峰.余弦距离算法在固定资产管理系统中文本相似度查询的应用[J].无锡商业职业技术学院学报,2013,13(6):96-99. 被引量：1
6孙程程,李爱平,黄九鸣.面向协调搜索的文本相似度计算方法[J].电脑知识与技术,2014,0(7):4460-4462.
7顾晓雪,章成志.结合内容和标签的Web文本聚类研究[J].现代图书情报技术,2014(11):45-52. 被引量：8
8程玉胜,梁辉,王一宾,任勇.结合关键词微变和LD算法的文本相似性研究[J].计算机工程与应用,2016,52(8):70-73.
9王俊丰,贾晓霞,李志强.基于K-means算法改进的短文本聚类研究与实现[J].信息技术,2019,43(12):76-80. 被引量：22

二级引证文献39

1姜微.电子政务中的留言智能分析技术[J].智能城市,2020(23):7-8.
2梁昌勇,王倩倩,陆文星,丁勇.结合商品标题和描述的在线评论特征词选择方法研究[J].现代图书情报技术,2011(5):49-54. 被引量：4
3张劲松,季平.四种颈淋巴清扫术切口在口腔外科中的比较[J].重庆医科大学学报,2000,25(2):208-209. 被引量：2
4欧阳宁,罗艳.基于领域特征词加权的文本相似度计算[J].计算机工程与设计,2012,33(11):4338-4342. 被引量：2
5白如江,王晓笛,王效岳.基于数字指纹的文献相似度检测研究[J].图书情报工作,2013,57(15):88-95. 被引量：7
6赵飞龙,马建红.面向专利的功能信息自动标注方法研究[J].重庆邮电大学学报（自然科学版）,2015,27(2):273-278. 被引量：4
7马力,刘惠福.一种改进的文本特征提取算法[J].西安邮电大学学报,2015,20(6):79-81. 被引量：6
8黄凌云.图书馆数字资源自动推荐优化算法研究[J].情报探索,2016(2):25-29. 被引量：1
9陈永强.基于CBR技术的数控机床故障诊断专家系统[J].西昌学院学报（自然科学版）,2016,30(1):40-43. 被引量：2
10洪文,聂延平,青巧.馆藏资源自动推荐模型结构与处理流程优化分析[J].情报理论与实践,2016,39(5):130-133. 被引量：1

1姜利雪,季铎,蔡东风.专利中基于语义角色的术语相似度计算方法[J].中文信息学报,2016,30(4):37-43. 被引量：2
2吕立辉,梁维薇,冉蜀阳.基于词林的词语相似度的度量[J].现代计算机,2013(1):3-6. 被引量：15

计算机工程与设计

2009年第8期

浏览历史

内容加载中请稍等...

基于单词相似度的文本聚类被引量：9

参考文献8

二级参考文献55

共引文献131

同被引文献74

引证文献9

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

基于单词相似度的文本聚类 被引量：9

参考文献8

二级参考文献55

共引文献131

同被引文献74

引证文献9

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

基于单词相似度的文本聚类被引量：9