多分类器集成的汉语词义消歧研究被引量：14

Ensembles of Classifiers for Chinese Word Sense Disambiguation

下载PDF

导出

摘要词义消歧长期以来一直是自然语言处理中的热点和难题,集成方法被认为是机器学习研究的四大趋势之一.系统研究了9种集成学习方法在汉语词义消歧中的应用.9种集成方法分别是乘法规则、均值、最大值、最小值、多数投票、序列投票、加权投票、概率加权和单分类器融合,其中乘法规则、均值、最大值3种集成方法还未曾应用于词义消歧.选取支持向量机模型、朴素贝叶斯和决策树作为3个单分类器.在两个不同的数据集上进行了实验,其一是选自现代汉语语义标注语料库的18个多义词,其二是国际语义评测SemEval-2007的中英文对译选择词消歧任务.实验结果显示,首次在词义消歧中引入应用的3种集成方法乘法、均值、最大值有良好的性能表现,3种方法的消歧准确率均高于最佳单分类器SVM,而且优于其他6种集成方法. Word sense disambiguation has long been a central concern for natural language processing, and ensemble of classifiers is one of the four current directions in machine learning study. This paper makes a systematic study on the ensembles of classifiers for Chinese word sense disambiguation. Nine kinds of combining strategies are experimented in this paper： product, average, max, rain, majority voting, rank-based voting, weighted voting, weighted probability, and best single combining, among which the three combining methods of product, average and max have not been applied in word sense disambiguation in previous works. Support vector machine, naYve Bayes, and decision tree are selected as the three component classifiers. Four kinds of features are used in all of the three classifiers： bag of words, words with position, parts of speech with position and 2-gram collocations. Experiments are conducted in two different datasets： the first dataset is 18 ambiguous words selected from Chinese semantic corpus, and the second dataset is the multilingual Chinese-English lexical sample task at SemEval-2007. The experimental results illustrate that the three kinds of combining strategies of average, product and max, which are applied for the first time in Chinese word sense disambiguation in this paper, exceed the accuracy of best single classifier support vector machine, and also outperform the other six kinds of combining methods.

作者吴云芳王淼金澎俞士汶

机构地区北京大学信息科学技术学院北京大学软件与微电子学院

出处《计算机研究与发展》 EI CSCD 北大核心 2008年第8期1354-1361,共8页 Journal of Computer Research and Development

基金国家自然科学基金项目(60703063) 国家社会科学基金项目(08CYY016) 国家"八六三"高技术研究发展计划基金项目(2007AA01Z198) 国家"九七三"重点基础研究发展规划基金项目(2004CB318102)~~

关键词词义消歧多分类器集成均值最大值 word sense disambiguation ensemble of classifiers average max

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1Dietterich T G. Machine learning research: Four current directions [J]. AI Magazine, 1997, 18(4): 97-136. 被引量：1
2Mihalcea R, Chklovski T, Kilgariff A. The SENSEVAL-3 English lexical sample task [C/OL] //Proc of SENSEVAL 3. (2004) [2007-07-20]. http://aclweb, org/anthology new. 被引量：1
3Kilgarriff A, Rosenzweig J. Framework and results for English SenSeval [J]. Computers and the Humanities, 2000, 34(1):15-48. 被引量：1
4Pedersen T. A simple approach to building ensembles of naive Bayesian classifiers for word sense disambiguation [C/OL]//Proc of NAACL-2000. (2000) [ 2007-07-20]. http://aclweb, org/anthology-new. 被引量：1
5Stevenson M, Wilks Y. The interaction of knowledge sources in word sense disambiguation [J]. Computational Linguistics, 2001, 27(3): 321-349. 被引量：1
6Florian R, Cucerzan S, Schafer C, et al. Combing classifiers for word sense disambiguation [J]. Natural Language Engineering, 2002, 1(1): 1-14. 被引量：1
7Carpuat M, Su W, Wu D. Augmenting ensemble classification for word sense disambiguation with a kernel PCA model [C/OL] //Proc of SENSEVAL-3. (2004) [2007- 07-20]. http ://aclweb. org/anthology new. 被引量：1
8Wang X J, Matasumoto Y. Trajetory based word sense disambiguation [C/OL] //Proc of the 20th Int'l Conf on Computational Linguistics. (2004) [2007-07-20]. http:// aclweb, org/anthology-new. 被引量：1
9全昌勤,何婷婷,姬东鸿,余绍文.基于多分类器决策的词义消歧方法[J].计算机研究与发展,2006,43(5):933-939. 被引量：8
10Kittler J, Hater M, Duin R P, et al. On combining classifiers [J]. IEEE Trans on Pattern Analysis and Machine Intellifence, 1998, 20(3): 226-239. 被引量：1

二级参考文献7

1Nancy I de,Jean Veronis.Introduction to the special issue on word sense disambiguation:The state of the Art.Computational Linguistics,1998,24(1):1～40 被引量：1
2Y.Freund,R.E.Schapire.Experiments with a new boosting algorithm.In:Proc.13th Int'l Conf.Machine Learning.San Francisco:Morgan Kaufmam,1996.148～156 被引量：1
3S.Abney,R.E.Schapire,Y.Singer.Boosting applied to tagging and PP-attachment.In:Proc.Joint SIGDAT Conf.Empirical Methods in Natural Language Processing and Very Large Corpora,1999.38 ～ 45 http://citeseer.ist.psu.edu/context/930001/588691 被引量：1
4R.E.Schapire,Y.Singer.BoostTexter:A boosting-based system for text categorization.Machine Learning,2000,39(2):135 ～ 168 被引量：1
5Gerard Escudero Llu s Marquez,German Rigau.Boosting applied to word sense disambiguation.The 1 1th European Conf.Machine Learning (ECML 2000),Barcelona,Spain,2000 被引量：1
6Seong-Bae Park,Byoung-Tak Zhang,Yung Taek Kim.Word sense disambiguation by learning decision trees from unlabeled data.Applied Intelligence,2003,19(1-2):27～ 38 被引量：1
7鲁松,白硕,黄雄,张健.基于向量空间模型的有导词义消歧[J].计算机研究与发展,2001,38(6):662-667. 被引量：37

共引文献7

1陈冰,张化祥.一种基于信息熵的多分类器动态组合方法[J].计算机工程与应用,2008,44(22):146-148. 被引量：1
2陈冰,张化祥.集成学习的多分类器动态组合方法[J].计算机工程,2008,34(24):218-220. 被引量：8
3何径舟,王厚峰.基于特征选择和最大熵模型的汉语词义消歧[J].软件学报,2010,21(6):1287-1295. 被引量：37
4肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6
5张仰森,郭江.动态自适应加权的多分类器融合词义消歧模型[J].中文信息学报,2012,26(1):3-8. 被引量：1
6曾华琳,周昌乐,陈毅东,史晓东.基于特征自动选择方法的汉语隐喻计算[J].厦门大学学报（自然科学版）,2016,55(3):406-412. 被引量：2
7肖锐,蒋家琪,张云春.多义词语义拓扑及有监督的词义消歧研究[J].计算机科学,2019,46(S11):13-18. 被引量：1

同被引文献128

1陈耀东,王挺,陈火旺.浅层语义分析研究[J].计算机研究与发展,2008,45(z1):321-325. 被引量：12
2蒋国瑞,司学峰.基于代价敏感SVM的电信客户流失预测研究[J].计算机应用研究,2009,26(2):521-523. 被引量：21
3徐远纯,盛昭瀚,柳炳祥.一种基于决策树的客户流失危机分析方法[J].计算机与现代化,2004(8):1-4. 被引量：10
4卢志茂,刘挺,郎君,李生.神经网络和贝叶斯网络在汉语词义消歧上的对比研究[J].高技术通讯,2004,14(8):15-19. 被引量：9
5王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
6全昌勤,何婷婷,姬东鸿,刘辉.从搭配知识获取最优种子的词义消歧方法[J].中文信息学报,2005,19(1):30-35. 被引量：13
7刘金岭,刘国香.Huffman编码的优化[J].河北师范大学学报（自然科学版）,2006,30(1):29-32. 被引量：2
8李文斌,刘椿年,陈嶷瑛.基于混合高斯模型的电子邮件多过滤器融合方法[J].电子学报,2006,34(2):247-251. 被引量：12
9全昌勤,何婷婷,姬东鸿,余绍文.基于多分类器决策的词义消歧方法[J].计算机研究与发展,2006,43(5):933-939. 被引量：8
10刘风成,黄德根,姜鹏.基于AdaBoost.MH算法的汉语多义词消歧[J].中文信息学报,2006,20(3):6-13. 被引量：7

引证文献14

1亢俊健,杜在林,张新东,朱群英.使用信息增益方法选择分类器[J].计算机工程与应用,2009,45(14):158-160.
2李纲,寇广增,夏晨曦,全吉,张东赫.中文词义消歧上下文最优边界问题研究[J].现代图书情报技术,2009(7):49-53. 被引量：1
3于丽丽,丁德鑫,曲维光,陈小荷,李惠.基于条件随机场的古汉语词义消歧研究[J].微电子学与计算机,2009,26(10):45-48. 被引量：13
4邵艳秋,穗志方,吴云芳.基于词汇语义特征的中文语义角色标注研究[J].中文信息学报,2009,23(6):3-10. 被引量：7
5刘金岭.基于语义密度的文本聚类研究[J].计算机工程,2010,36(5):81-83. 被引量：7
6刘金岭.基于语义的中文文本聚类最佳簇数研究[J].计算机工程与设计,2010,31(9):2034-2036.
7何径舟,王厚峰.基于特征选择和最大熵模型的汉语词义消歧[J].软件学报,2010,21(6):1287-1295. 被引量：37
8罗彬,邵培基,罗尽尧,刘独玉,夏国恩.基于蚁群算法的成本敏感线性集成多分类器的客户流失研究[J].中国管理科学,2010,18(3):58-67. 被引量：2
9刘金岭.基于降维的短信文本语义分类及主题提取[J].计算机工程与应用,2010,46(23):159-161. 被引量：18
10周泓,刘金岭.海量中文短信文本密度聚类研究[J].计算机工程,2010,36(22):81-82.

二级引证文献89

1王厚峰.计算语言学歧义消解研究——兼介绍北京大学计算语言学教育部重点实验室[J].术语标准化与信息技术,2010(3):25-28. 被引量：3
2刘金岭.基于《现代汉语语义分类词典》的文本聚类方法[J].情报杂志,2010,29(11):170-173. 被引量：4
3刘金岭.基于语义概念的海量短信文本聚类[J].计算机工程,2011,37(1):57-59.
4刘金岭,严云洋.基于上下文的短信文本分类方法[J].计算机工程,2011,37(10):41-43. 被引量：13
5钟将,刘龙海,梁传伟.基于成对约束的主动半监督文本聚类[J].计算机工程,2011,37(13):183-186. 被引量：4
6杨金柱,刘金岭.基于词语上下文的文本分类研究[J].计算机技术与发展,2011,21(8):145-148. 被引量：4
7郭剑毅,雷春雅,余正涛,苏磊,赵君,田维.基于信息熵的半监督领域实体关系抽取研究[J].山东大学学报（工学版）,2011,41(4):7-12. 被引量：3
8于江德,葛彦强,余正涛.基于条件随机场的汉语词性标注[J].微电子学与计算机,2011,28(10):63-66. 被引量：6
9赵晓凡,赵丹,刘永革.利用CRF实现中文人名性别的自动识别[J].微电子学与计算机,2011,28(10):122-124. 被引量：7
10周明海.词汇语义在语义角色句法实现中的作用研究综述[J].语文学刊（基础教育版）,2011(1):3-4. 被引量：2

1张春祥,邓龙,高雪瑶,卢志茂.结合语义知识的汉语词义消歧[J].计算机工程与应用,2016,52(3):119-122. 被引量：2
2陈笑蓉,秦进.基于最大熵原理的汉语词义消歧[J].计算机科学,2005,32(5):174-176. 被引量：7
3张春祥,栾博,高雪瑶,卢志茂.句法信息指导的汉语词义消歧[J].计算机工程与应用,2015,51(5):142-145.
4小子.2小时精通Word2000—插入中英文对译的翻译结果[J].大众电脑,2002(10):44-44.
5卢志茂,刘挺,郎君,李生.神经网络和贝叶斯网络在汉语词义消歧上的对比研究[J].高技术通讯,2004,14(8):15-19. 被引量：9
6张春祥,栾博,高雪瑶,卢志茂.基于句法分析的汉语词义消歧[J].计算机应用研究,2014,31(1):40-42. 被引量：3
7邵桂娟.计算机中乘法器、多路选择器和分路器的设计策略[J].江西广播电视大学学报,2000(4):71-73.
8闫蓉.基于语义相关度计算的汉语词义消歧方法研究[J].内蒙古大学学报（自然科学版）,2007,38(6):693-697. 被引量：2
9屠彬彬,于凤芹.基于样本熵与MFCC融合的语音情感识别[J].计算机工程,2012,38(7):142-144. 被引量：7
10张仰森,郭江.动态自适应加权的多分类器融合词义消歧模型[J].中文信息学报,2012,26(1):3-8. 被引量：1

计算机研究与发展

2008年第8期

浏览历史

内容加载中请稍等...

多分类器集成的汉语词义消歧研究被引量：14

参考文献14

二级参考文献7

共引文献7

同被引文献128

引证文献14

二级引证文献89

相关作者

相关机构

相关主题

浏览历史

多分类器集成的汉语词义消歧研究 被引量：14

参考文献14

二级参考文献7

共引文献7

同被引文献128

引证文献14

二级引证文献89

相关作者

相关机构

相关主题

浏览历史

多分类器集成的汉语词义消歧研究被引量：14