高斯加权的重构性K-NN算法研究被引量：1

Research on Gauss Weighed Reorganization K-NN

下载PDF

导出

摘要该文提出基于高斯加权距离以及聚类重构机制的K-NN文本聚类算法。文章提出K-NN近邻域的概念,通过高斯加权的近邻域算法实施K-NN聚类。利用高斯函数根据样本与聚类中心的距离为样本赋权,计算聚类距离。基于近邻域权重和聚类密度对形成的聚类实施重构,实现聚类数目的自适应调整。使用拆分算子拆分稀疏聚类并调整异常样本;使用合并算子合并相似聚类。实验显示聚类重构机制能够有效地提高聚类的准确率及召回率,增加聚类密度,使得形成的聚类结果更加合理。 This paper presents a K-NN text clustering algorithm employing uses Gauss Weighed Distance and Cluster Reorganization Mechanism. The concept of Nearest Domain is proposed and Nearest Domain Rules are elaborated. Then Gauss Weighing Algorithm is designed to Quantification samples＇ distance and weights. A text is weighed based on the distance from cluster center via Gauss function in order that distances of clusters can be calculated. Further, Cluster Reorganization Mechanism will make a self adaption to the amount of clusters. Splitting operator separates sparse clusters and adjusts abnormal texts while consolidating operator combines similar ones. Clustering experiment shows that reorganization process effectively improves the accuracy and recall rate and makes result more reasonable by increasing the inner density of clusters.

作者刘作国陈笑蓉

机构地区贵州大学计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2015年第5期112-116,共5页 Journal of Chinese Information Processing

基金国家自然科学基金(61363028)

关键词文本聚类 K-NN算法高斯加权近邻域规则聚类重构 text clustering K-NN Gauss weighing nearest domain rule cluster reorganization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1陈建超,胡桂武,杨志华,严桂夺.基于全局性确定聚类中心的文本聚类[J].计算机工程与应用,2011,47(10):147-150. 被引量：5
2刘金岭,冯万利,张亚红.初始化簇类中心和重构标度函数的文本聚类[J].计算机应用研究,2011,28(11):4115-4117. 被引量：2
3Hyeong-Il Kim,Jae-Woo Chang.k-Nearest Neighbor Query Processing Algorithms for a Query Region in Road Networks[J].Journal of Computer Science & Technology,2013,28(4):585-596. 被引量：7
4曾依灵,许洪波,吴高巍,程学旗,白硕.一种基于空间映射及尺度变换的聚类框架[J].中文信息学报,2010,24(3):81-88. 被引量：2
5王骏,王士同,邓赵红.特征加权距离与软子空间学习相结合的文本聚类新方法[J].计算机学报,2012,35(8):1655-1665. 被引量：22
6季铎,王智超,蔡东风,张桂平.基于高斯分布的簇间距离计算方法[J].中文信息学报,2008,22(3):50-55. 被引量：10
7王灿田,孙玉宝,刘青山.基于稀疏重构的超图谱聚类方法[J].计算机科学,2014,41(2):145-148. 被引量：2

二级参考文献75

1刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
2李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
3任江涛,孙婧昊,施潇潇,黄焕宇,印鉴.一种用于文本聚类的改进的K均值算法[J].计算机应用,2006,26(B06):73-75. 被引量：24
4王丽娟,关守义,王晓龙,王熙照.基于属性权重的Fuzzy C Mean算法[J].计算机学报,2006,29(10):1797-1803. 被引量：45
5彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
6Dumais S.T.LSI Meets TREC:A Status Report[C]// D.Harman (Ed.) Prof,of The First Text RE-trieval Conference (TREC1),National Institute of Standards and Technology Special Publication 500-207,1993:137-152. 被引量：1
7Liu X.,Croft W.R Cluster-Based Retrieval Using Language Models[C]// Proc.of SIGIR,2004:186-193. 被引量：1
8Zamir O.,Etzioni O.,Madani O.,et al.Fast and Intuitive Clustering of Web Documents[C]// Proc.of KDD,1997:287-290. 被引量：1
9Han J.and Kamber M.Data Mining:Concepts and Techniques,Second Edition[M].Morgan Kaufmann Publishes,2006. 被引量：1
10Wu H.,Phang T.H.,Liu B.,et al.A Refinement Approach to Handling Model Misfit in Text Categorization[C]// SIGKDD,2002:207-216. 被引量：1

共引文献39

1张桂平,蔡东风.基于知识管理和智能控制的协同翻译平台——知识管理和机器翻译的融合[J].中文信息学报,2008,22(5):3-11. 被引量：9
2季铎,苗雪雷.知识聚类技术[J].沈阳航空工业学院学报,2008,25(5):58-62.
3汤林,陈建明,尚笑梅.基于机器学习的服装款式知识库设计[J].计算机与现代化,2011(3):9-11.
4朱林,雷景生,毕忠勤,杨杰.一种基于数据流的软子空间聚类算法[J].软件学报,2013,24(11):2610-2627. 被引量：31
5朱林,雷景生,毕忠勤,徐菲菲.模糊加权流数据软子空间的聚类算法[J].上海电力学院学报,2013,29(6):553-557. 被引量：1
6张婕,山岚.CBC算法在网页分类中的应用研究[J].北京化工大学学报（自然科学版）,2013,40(B12):90-94. 被引量：1
7王丽娟,郝志峰,蔡瑞初,温雯.基于实数值链接分析的ESSC融合算法[J].计算机应用研究,2014,31(5):1366-1369.
8任睿.3dsmax环境下大规模城市建模研究[J].计算机光盘软件与应用,2014,17(5):39-39.
9彭波,谢丽萍.基于稀疏表示的概率子空间聚类人脸识别[J].电视技术,2014,38(11):173-176.
10王丽敏,姬强,韩旭明,黄娜.基于奇异值分解的自适应近邻传播聚类算法[J].吉林大学学报（理学版）,2014,52(4):753-757. 被引量：4

同被引文献8

1邓擘,郑彦宁,傅继彬.汉语实体关系模式的自动获取研究[J].计算机科学,2010,37(2):183-185. 被引量：3
2宋巍,张宇,刘挺,李生.基于检索历史上下文的个性化查询重构技术研究[J].中文信息学报,2010,24(3):55-61. 被引量：12
3刘丹丹,彭成,钱龙华,周国栋.词汇语义信息对中文实体关系抽取影响的比较[J].计算机应用,2012,32(8):2238-2244. 被引量：11
4曹雷,郭嘉丰,白露,程学旗.基于半监督话题模型的用户查询日志命名实体挖掘[J].中文信息学报,2012,26(5):26-32. 被引量：6
5杨丹,申德荣,聂铁铮,于戈,寇月.异构信息空间中实体关联关系挖掘算法CFRQ4A[J].计算机研究与发展,2014,51(4):895-904. 被引量：7
6何钟豪,苏劲松,史晓东,陈毅东,黄研洲.引入集成学习的最大熵短语调序模型[J].中文信息学报,2014,28(1):87-93. 被引量：3
7刘丹丹,彭成,钱龙华,周国栋.《同义词词林》在中文实体关系抽取中的作用[J].中文信息学报,2014,28(2):91-99. 被引量：26
8怀宝兴,宝腾飞,祝恒书,刘淇.一种基于概率主题模型的命名实体链接方法[J].软件学报,2014,25(9):2076-2087. 被引量：32

引证文献1

1刘作国,陈笑蓉.面向文本聚类的实体—动作关联模型研究[J].中文信息学报,2018,32(5):22-30. 被引量：3

二级引证文献3

1周洪宾.基于词汇树检索的图书馆书目智能查询系统设计[J].现代电子技术,2019,42(24):180-182.
2马刚,李红云.文本差异性分析与建模[J].电脑编程技巧与维护,2021(2):3-5.
3徐海燕,姜瑛.针对复杂用户评论的代码质量属性判断[J].软件学报,2021,32(7):2183-2203. 被引量：1

1陈笑蓉,刘作国.文本聚类的重构策略研究[J].中文信息学报,2016,30(2):189-195. 被引量：5
2童思维,汤勃,孔建益,王兴东.基于非局部均值的带钢表面图像去噪[J].机械设计与制造,2016(12):242-244.
3叶施仁,游湘涛,史忠植,李晓黎.高维数据中有效的相似性计算方法[J].计算机研究与发展,2000,37(10):1166-1172. 被引量：4
4文春武,宋杰,姚家振.基于RSSI校正的无线传感器网络定位算法[J].传感器与微系统,2014,33(12):134-136. 被引量：17
5贾迪,孟祥福,孟琭,董娜,方金凤.结合高斯加权距离图的图像边缘提取[J].中国图象图形学报,2014,19(1):62-68. 被引量：9
6秦晅,罗丽莉.改进的SIFT算法在图像匹配中应用研究[J].现代电子工程,2009(5):49-52.
7李博,杨丹,张小洪.一种新的基于梯度方向直方图的图像配准方法[J].计算机应用研究,2007,24(3):312-314. 被引量：6
8李为华,刘宏兵.彩色图像的球形粒计算分割算法[J].信阳师范学院学报（自然科学版）,2014,27(2):296-298. 被引量：5
9袁国良,宋显水.基于WiFi和IMU结合的室内定位方法的研究[J].微型机与应用,2017,36(8):11-14. 被引量：2
10孙晓霞,刘晓霞,谢倩茹.模糊C-均值(FCM)聚类算法的实现[J].计算机应用与软件,2008,25(3):48-50. 被引量：34

中文信息学报

2015年第5期

浏览历史

内容加载中请稍等...

高斯加权的重构性K-NN算法研究被引量：1

参考文献7

二级参考文献75

共引文献39

同被引文献8

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

高斯加权的重构性K-NN算法研究 被引量：1

参考文献7

二级参考文献75

共引文献39

同被引文献8

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

高斯加权的重构性K-NN算法研究被引量：1