基于无指导机器学习的全文词义自动标注方法被引量：2

Full-words Automatic Word Sense Tagging Based on Unsupervised Learning Algorithm

下载PDF

导出

摘要为实现汉语全文词义自动标注,本文采用了一种新的基于无指导机器学习策略的词义标注方法．实验中建立了四个词义排歧模型,并对其测试结果进行了比较．其中实验效果最优的词义排歧模型融合了两种无指导的机器学习策略,并借助依存文法分析手段对上下文特征词进行选择．最终确定的词义标注方法可以使用大规模语料对模型进行训练,较好的解决了数据稀疏问题,并且该方法具有标注正确率高、扩展性能好等优点,适合大规模文本的词义标注工作． For the purpose of implementing automatic Chinese word sense tagging, this paper presents a new method for word sense disambiguation based on unsupervised machine learning strategies. Four models of word sense disambiguation are built and compared. The model with two unsupervised machine learning strategies and selecting contextual features using dependence grammar obtains the best performance. And it can be trained with large-scale corpus to deal with the problem of data sparseness. In addition, it has such characteristics as high accuracy, high speed, easy extension and so on. Thus this technique is competent for word sense tagging on large-scale real-world text.

作者卢志茂刘挺李生

机构地区哈尔滨工程大学计算机科学与技术学院哈尔滨工业大学计算机学院信息检索研究室

出处《自动化学报》 EI CSCD 北大核心 2006年第2期228-236,共9页 Acta Automatica Sinica

基金国家自然科学基金重点项目(60435020)国家自然科学基金项目(60575042 60573072)资助~~

关键词词义标注无指导学习算法单纯贝叶斯模型依存文法 Sense tagging, unsupervised learning algorithm, naive Bayesian model, dependency grammar

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
2鲁松,白硕,黄雄,张健.基于向量空间模型的有导词义消歧[J].计算机研究与发展,2001,38(6):662-667. 被引量：37

二级参考文献3

1李娟子.汉语词义消歧方法研究：博士论文[M].北京：清华大学,1999.. 被引量：1
2李娟子，博士论文，1999年被引量：1
3李彬,刘挺,秦兵,李生.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003,20(12):15-17. 被引量：127

共引文献45

1李国臣,段建勇.基于语法语义信息量化模型的语素字再分类[J].计算机工程,2004,30(11):37-39.
2卢志茂,刘挺,郎君,李生.神经网络和贝叶斯网络在汉语词义消歧上的对比研究[J].高技术通讯,2004,14(8):15-19. 被引量：9
3余正涛,宋丽哲,樊孝忠.基于本体的个性化领域信息服务[J].计算机工程,2005,31(5):22-24. 被引量：17
4王术,付关友,朱征宇.面向个性化服务的网页特征描述[J].计算机工程与设计,2005,26(3):651-653. 被引量：3
5陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
6陈浩,何婷婷,姬东鸿.基于MDL聚类的无导词义消歧[J].小型微型计算机系统,2005,26(10):1846-1849. 被引量：2
7刘冬明,杨尔弘,方莹.汉英双语平行语料库的词义标注[J].中文信息学报,2005,19(6):50-56. 被引量：4
8刘挺,卢志茂,郎君,李生.Chinese word sense disambiguation based on neural networks[J].Journal of Harbin Institute of Technology(New Series),2005,12(4):408-414.
9刘挺,卢志茂,李生.一个全文词义自动标注系统的实现[J].哈尔滨工业大学学报,2005,37(12):1603-1605. 被引量：3
10何婷婷,谢芳.利用BP神经网络的中文词义消歧模型[J].华中师范大学学报（自然科学版）,2005,39(4):470-474. 被引量：1

同被引文献36

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2刘挺,卢志茂,李生.一个全文词义自动标注系统的实现[J].哈尔滨工业大学学报,2005,37(12):1603-1605. 被引量：3
3陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：22
4卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
5Navigli R. Word sense disambiguation: a survey. ACM Com- puting Surveys, 2009, 41(2): 1011-1069. 被引量：1
6Agirre E, de Lacalle O L, Soroa A. Knowledge-based WSD and specific domains: performing better than generic super- vised WSD. In: Proceedings of the 2009 International Joint Conference on Artificial Intelligence 2009. Pasadena, USA: Morgan Kaufmann Publishers Inc, 2009. 1501-1506. 被引量：1
7Magnini B, Strapparava C, Pezzulo G, Gliozzo A. The role of domain information in word sense disambiguation. Natu- ral Language Engineering, 2002, 8(4): 359-373. 被引量：1
8Navigli R, Ponzetto S P. BabelNet: the automatic construc- tion, evaluation and application of a wide-coverage multi- lingual semantic network. Artitcial Intelligence, 2012, 193: 217-250. 被引量：1
9Stevenson M, Agirre E, Soroa A. Exploiting domain in- formation for word sense disambiguation of medical doc- uments. Journal of the American Medical Informatics Asso- ciation, 2011, 19(2): 235-240. 被引量：1
10Agirre E, de Lacalle O L, Fellbaum C, Hsieh S K, Tesconi M, Monachini M, Vossen P, Seqers R. SemEval-2010 task 17: all-words word sense disambiguation on a specific do- main. In: Proceedings of the 2009 NAACL HLT Workshop on Semantic Evaluations: Recent Achievements and Fhlture Directions. Boulder, Colorado: Association for Computa- tional Linguistics, 2009. 123-128. 被引量：1

引证文献2

1鹿文鹏,黄河燕,吴昊.基于领域知识的图模型词义消歧方法[J].自动化学报,2014,40(12):2836-2850. 被引量：10
2王东,熊世桓.基于同义词词林扩展的短文本分类[J].兰州理工大学学报,2015,41(4):104-108. 被引量：9

二级引证文献19

1王俊华,左祥麟,左万利.基于证据理论的单词语义相似度度量[J].自动化学报,2015,41(6):1173-1186. 被引量：4
2赵冬晓,王效岳,白如江,刘自强.面向情报研究的文本语义挖掘方法述评[J].现代图书情报技术,2016(10):13-24. 被引量：7
3杨陟卓.基于上下文翻译的有监督词义消歧研究[J].计算机科学,2017,44(4):252-255. 被引量：11
4段旭磊,张仰森,郭正斌.微博文本聚类中特征扩展策略研究[J].计算机工程与应用,2017,53(13):90-94. 被引量：2
5杜亚璞.一种基于改进ML-KNN的微博文本分类方法[J].信息与电脑,2018,30(7):42-44. 被引量：1
6杨腾飞,解吉波,李振宇,李国庆.微博中蕴含台风灾害损失信息识别和分类方法[J].地球信息科学学报,2018,20(7):906-917. 被引量：27
7雷朔,刘旭敏,徐维祥.基于词向量特征扩展的中文短文本分类研究[J].计算机应用与软件,2018,35(8):269-274. 被引量：17
8段宇光,刘扬,俞士汶.《同义词词林》的嵌入表示与应用评估[J].厦门大学学报（自然科学版）,2018,57(6):867-875. 被引量：2
9孟凡擎,鹿文鹏,张旭,成金勇.基于HowNet的图模型词义消歧方法[J].齐鲁工业大学学报,2018,32(6):66-73. 被引量：3
10张春祥,徐志峰,高雪瑶.一种半监督的汉语词义消歧方法[J].西南交通大学学报,2019,54(2):408-414. 被引量：7

1刘挺,卢志茂,李生.一个全文词义自动标注系统的实现[J].哈尔滨工业大学学报,2005,37(12):1603-1605. 被引量：3
2乔剑敏,张仰森.词义标注一致性检验系统的设计与实现[J].中文信息学报,2010,24(4):44-51. 被引量：3
3苏新春,李安,洪桂治.机用义项库在词义标注中的作用及其完善[J].厦门大学学报（哲学社会科学版）,2010,60(3):137-144. 被引量：9
4金澎.词义消歧和词义消歧评测简介[J].术语标准化与信息技术,2010(3):29-34. 被引量：1
5卢志茂,刘挺,丁江伟,李生.基于依存分析和贝叶斯网络的无指导汉语词义消歧[J].高技术通讯,2004,14(2):7-11. 被引量：3
6刘冬明,杨尔弘,方莹.汉英双语平行语料库的词义标注[J].中文信息学报,2005,19(6):50-56. 被引量：4
7李天颍,刘璘,赵德旺,曹原.一种基于依存文法的需求文本策略依赖关系抽取方法[J].计算机学报,2013,36(1):54-62. 被引量：17
8秦学勇,张润梅.两级相似度计算在主观题机器阅卷中的应用[J].计算机工程,2012,38(11):274-276.
9秦元巧,孙国强.改进的句子相似度计算在问答系统中的应用[J].微计算机信息,2011,27(8):206-208. 被引量：2
10刘宝艳,林鸿飞,赵晶.基于改进编辑距离和依存文法的汉语句子相似度计算[J].计算机应用与软件,2008,25(7):33-34. 被引量：22

自动化学报

2006年第2期

浏览历史

内容加载中请稍等...

基于无指导机器学习的全文词义自动标注方法被引量：2

参考文献2

二级参考文献3

共引文献45

同被引文献36

引证文献2

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于无指导机器学习的全文词义自动标注方法 被引量：2

参考文献2

二级参考文献3

共引文献45

同被引文献36

引证文献2

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于无指导机器学习的全文词义自动标注方法被引量：2