融合距离度量和高斯混合模型的中文词义归纳模型被引量：2

Chinese Word Sense Induction Model by Integrating Distance Metric and Gaussian Mixture Model

下载PDF

导出

摘要词义归纳是解决词义知识获取的重要研究课题,利用聚类算法对词义进行归纳分析是目前最广泛采用的方法。通过比较K-Means聚类算法和EM聚类算法在各自词义归纳模型上的优势,提出一种新的融合距离度量和高斯混合模型的聚类算法,以期利用两种聚类算法分别在距离度量和数据分布计算上的优势,挖掘数据的几何特性和正态分布信息在词义聚类分析中的作用,从而提高词义归纳模型的性能。实验结果表明,所提混合聚类算法对于改进词义归纳模型的性能是十分有效的。 Word sense induction is an important topic in solving knowledge acquisition of word sense,and the most widely used method to word sense induction is based on cluster analysis algorithm.By comparing K-Means clustering algorithm with EM clustering algorithm on the model of word sense induction,we proposed a new hybrid clustering algorithm by integrating distance metric and Gaussian mixture model,which combine the advantages of distance metric and data distributed computing in the two cluster algorithms respectively to mine the role of geometrical properties and normal distribution information of training data in clustering analysis and then improve the performance of performance of word sense model.Experimental results show that the hybrid clustering algorithm proposed in this paper is very effective to improve the performance of word sense induction model.

作者张宜浩刘智朱常鹏 ZHANG Yi-hao LIU Zhi ZHU Chang-peng(College of Computer Science and Engineering, Chongqing University of Technology, Chongqing 400054, Chin)

机构地区重庆理工大学计算机科学与工程学院

出处《计算机科学》 CSCD 北大核心 2017年第8期265-269,共5页 Computer Science

基金重庆市教委科学技术研究项目(kj1500920 kj1500916) 国家自然科学基金项目(61603065)资助

关键词词义归纳距离度量高斯混合模型混合聚类 Word sense induction Distance metric Gaussian mixture model Hybrid clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1鹿文鹏,黄河燕.基于依存适配度的知识自动获取词义消歧方法[J].软件学报,2013,24(10):2300-2311. 被引量：11
2唐共波,于东,荀恩东.基于知网义原词向量表示的无监督词义消歧方法[J].中文信息学报,2015,29(6):23-29. 被引量：14
3钱涛,姬东鸿,戴文华.一个基于超图的词义归纳模型[J].四川大学学报（工程科学版）,2016,48(1):152-157. 被引量：5

二级参考文献41

1陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
2卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
3余晓峰,刘鹏远,赵铁军.一种基于《知网》的汉语词语词义消歧方法[C]//第二届学生计算机语言学研讨会.北京:中国中文信息学会,2004. 被引量：3
4刘群,李素建.基于《知网》的词汇语义相似度的计算[C].台北:第三届汉语词汇语义学研讨会,2002. 被引量：45
5Wang J, Bansal M, Gimpel K, et al. A sense-topic model for word sense induction with unsupervised data enrich- ment[J]. Transactions of the Association for Computation- al Linguistics,2015,3:59 -71. 被引量：1
6Baskaya O, Sert E, Cirik V, et al. Ai-ku: Using substitute vectors and co-occurrence modeling for word sense induc- tion and disambiguation[ C]//Proceedings of the Seventh International Workshop on Semantic Evaluation. Atlanta: ACL,2013 : 300 - 306. 被引量：1
7Widdows D, Dorow B. A graph model for unsupervised lexical acquisition[ C]//Proceedings of the 19th Interna- tional Conference on Computational Linguistics. Taipei: ACL,2002 : 1 - 7. 被引量：1
8Klapaftis I P, Manandhar S. Word sense induction using graphs of collocations [ C ]//Proceedings of ECAI. Greece : IOS, 2008:298 - 302. 被引量：1
9Bordag S. Word sense induction: Triplet-based clustering and automatic evaluation [ C ]//Proceedings of the llth Conference of the European Chapter of the Association for Eomputational Linguistics. Trento : ACL,2006 : 307 - 311. 被引量：1
10Klapaftis I P, Manandhar S. Uoy: A hypergraph model for word sense induction & disambiguation[ C]//Proceedings 3f the 4th International Workshop on Semantic Evalua- Lions. Prague: ACL,2007:414 - 417. 被引量：1

共引文献23

1杨陟卓.基于上下文语境的词义消歧方法[J].计算机应用,2015,35(4):1006-1008. 被引量：4
2张振景,李新福,田学东,王凯.基于SVM的离合词词义消歧[J].计算机科学,2016,43(2):239-244. 被引量：4
3韩永花,雷玉霞,陈娟,王祥德.多框架知识的不一致性检测及其修正算法[J].计算机工程与应用,2016,52(23):94-97. 被引量：1
4孙茂松,陈新雄.借重于人工知识库的词和义项的向量表示：以HowNet为例[J].中文信息学报,2016,30(6):1-6. 被引量：11
5杨陟卓.基于上下文翻译的有监督词义消歧研究[J].计算机科学,2017,44(4):252-255. 被引量：11
6史兆鹏,邹徐熹,向润昭.基于依存句法分析的多特征词义消歧[J].计算机工程,2017,43(9):210-213. 被引量：12
7谢振平,金晨,刘渊.基于建构主义学习理论的个性化知识推荐模型[J].计算机研究与发展,2018,55(1):125-138. 被引量：30
8谭红叶,武宇飞.汉语阅读理解中词义判断题的解答研究[J].计算机科学,2018,45(B06):72-74. 被引量：4
9张国清.两种词义消歧方法分析与比较[J].信息与电脑,2017,29(19):47-48. 被引量：2
10陈洋,罗智勇.一种基于Hownet的词向量表示方法[J].北京大学学报（自然科学版）,2019,55(1):22-28. 被引量：11

同被引文献26

1郝占刚,王正欧.基于遗传算法和k-medoids算法的聚类新算法[J].现代图书情报技术,2006(5):44-46. 被引量：5
2孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1070
3曾利军,陈敏,罗细飞.改进蚁群化学聚类算法在短期负荷预测中的应用[J].电力系统保护与控制,2012,40(4):59-62. 被引量：7
4杨东伟.从电力数据看经济发展趋势[J].华东电力,2013,41(6):1292-1295. 被引量：7
5姚丽娟,罗可,孟颖.一种新的k-medoids聚类算法[J].计算机工程与应用,2013,49(19):153-157. 被引量：18
6吕爱平.疾病证候分类研究——以类风湿关节炎为例[J].中国中西医结合杂志,2019,39(2):136-139. 被引量：13
7张少敏,赵硕,王保义.基于云计算和量子粒子群算法的电力负荷曲线聚类算法研究[J].电力系统保护与控制,2014,42(21):93-98. 被引量：24
8段峰峰,王永滨,杨丽芳,潘淑静.基于主成分分析方向深度梯度直方图的立体视觉深度图特征提取[J].计算机应用,2016,36(1):222-226. 被引量：16
9张士豪,顾益军,张俊豪.微博自动分类系统设计[J].信息网络安全,2016(1):81-87. 被引量：5
10吴倩倩,何友全.基于K-medoids算法的RFAT客户细分[J].华北水利水电大学学报（社会科学版）,2016,32(3):44-46. 被引量：1

引证文献2

1许立辉,陈敏,王池社.一种用于中医四诊分析的子空间聚类方法[J].计算机与现代化,2020(12):67-71.
2尹积军,潘巍巍.基于电力大数据的企业复工电力指数研究与应用[J].浙江电力,2021,40(2):26-32. 被引量：7

二级引证文献7

1黄健,丁珊,樊国旗,程颖,贺燕,周立伟.RPA机器人集群在电网统计业务中的建设与应用[J].青海电力,2021,40(4):27-30. 被引量：1
2夏伟,蔡文婷,刘阳,李宏杰.基于联合卡尔曼滤波的配电网多源异构数据融合[J].电力系统保护与控制,2022,50(10):180-187. 被引量：17
3陈明,刘睿,李乐,李锐锋,曾琴,李玉婷.利用大数据技术提升电力客户档案资源管理和服务能力[J].电力大数据,2022,25(2):9-18. 被引量：3
4肖林,肖倩宏,魏莉莉,周艳云,汪适.基于大数据和深度学习的电网调度语音识别声学模型研究[J].电力大数据,2022,25(9):30-36. 被引量：2
5陈建华,李政,刘翰青,高健,杨艳,竹双.基于企业用电数据的大气污染防治工作研究进展[J].环境工程技术学报,2023,13(2):510-516. 被引量：2
6董美玲,周榴照,章桢,万静文,尹亮,庄严.面向电力大数据的云审计研究与应用[J].电力大数据,2023,26(4):90-96.
7奚增辉,王卫斌.基于电力大数据的上海市经济发展指数模型构建与应用[J].智能电网（汉斯）,2021,11(3):218-228.

1夏永泉,王兵,支俊,黄海鹏,孙静茹.基于EM和K-means混合聚类方法的植物叶片病害区域自动提取[J].浙江农业学报,2017,29(8):1384-1391.
2郑志蕴,江国林,张行进,王振飞,李钝.基于滑动任务窗的众包质量评估算法[J].小型微型计算机系统,2017,38(9):2125-2129. 被引量：8
3郑鹏飞,王波,赵菊娣,林大钧,安琦.合理展开封头曲面的研究[J].东华大学学报（自然科学版）,2017,43(4):597-602. 被引量：2

计算机科学

2017年第8期

浏览历史

内容加载中请稍等...

融合距离度量和高斯混合模型的中文词义归纳模型被引量：2

参考文献3

二级参考文献41

共引文献23

同被引文献26

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

融合距离度量和高斯混合模型的中文词义归纳模型 被引量：2

参考文献3

二级参考文献41

共引文献23

同被引文献26

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

融合距离度量和高斯混合模型的中文词义归纳模型被引量：2