基于条件随机域和语义类的中文组块分析方法被引量：5

Chinese chunking method based on conditional random fields and semantic classes

下载PDF

导出

摘要为了解决中文组块分析精度不高和未利用词的语义信息的问题,提出了一种基于条件随机域模型和语义类的中文组块分析方法.该方法通过研究中文组块分析任务及其序列化特性,采用条件随机域模型融合不同类型特征,克服标记偏置问题,将语义词典中抽取的语义类特征应用到中文组块分析中,提高分析精度.实验表明,该方法取得了F值为92.77%的中文组块分析性能,实验进一步还表明了特征模板的选取和训练语料的规模对于分析性能的影响. To improve the accuracy of Chinese chunking and utilize the semantic information of words,a new Chinese chunking method is proposed based on conditional random fields and semantic classes.Through the analysis of Chinese chunking task and its sequential characteristics,conditional random fields that could incorporate various types of features were applied to overcome the label bias problem.Semantic features were utilized to improve the chunking performance.Experimental results show that the algorithm achieves impressive accuracy of 92.77% in terms of the F-score.A further experiment indicates the effects of feature template selection and training data′s scales on the aspect of chunking performance.

作者孙广路郎非薛一波

机构地区清华大学信息技术研究院哈尔滨理工大学计算机科学与技术学院哈尔滨理工大学外国语学院

出处《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第7期135-139,共5页 Journal of Harbin Institute of Technology

基金国家自然科学基金资助项目(60903083) 黑龙江省自然科学基金项目(F200936) 黑龙江省高等学校新世纪优秀人才基金资助项目(1155-ncet-008)

关键词条件随机域中文组块分析特征模板语义词典 conditional random fields Chinese chunking feature template semantic dictionary

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范(续)[J].中文信息学报,2002,16(6):58-65. 被引量：18
2周强,李玉梅.汉语块分析评测任务设计[J].中文信息学报,2010,24(1):123-128. 被引量：9
3李素建,刘群,杨志峰.基于最大熵模型的组块分析[J].计算机学报,2003,26(12):1722-1727. 被引量：58
4周俊生,戴新宇,陈家骏,曲维光.基于大间隔方法的汉语组块分析[J].软件学报,2009,20(4):870-877. 被引量：7

二级参考文献39

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2俞士汶.网上的基础语言信息资源[J].术语标准化与信息技术,2001(4):19-23. 被引量：2
3俞士汶,段慧明,朱学锋.汉语词的概率语法属性描述[J].语言文字应用,2001(3):21-26. 被引量：6
4周强.汉语基本块描述体系[J].中文信息学报,2007,21(3):21-27. 被引量：25
5周强陈力为等.一个人机互助的汉语语料库多级加工处理系统CCMP.计算语言学进展与应用[M].北京:清华大学出版社,1995.50. 被引量：1
6Introduction to CoNLL 1999 Shared Task: NP braketing [OL]. http://www. cnts. ua. ac. be/conll99/. 被引量：1
7Erik F. Tjong Kim Sang and Sabine Buchholz. Introduction to CoNLL-2000 Shared Task: Chunking [C]// Proeeedings of CoNLL 2000 and LLL 2000. Lisbon, Portugal, 2000: 127-132. 被引量：1
8Sang T K and D jean H. Introduction to the CoNLL- 2001 Shared Task: Clause Identification [C]//Proc. of CoNLL 2001, Toulouse, France, 2001: p53-57. 被引量：1
9Erik F. Tjong Kim Sang Introduction to the CoNLL-2002 Shared Task: Language Independent Named Entity Recognition[C]//Proc. of CoNLL-2002,2002. 被引量：1
10Erik F. Tjong Kim Sang & Fien De Meulder Introduction to the CoNLL-2003 Shared Task: Language Independent Named Entity Recognition [ C]//Proc. of CoNLL-2003,2003. 被引量：1

共引文献85

1陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
2干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
3余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
4余正涛,樊孝忠,郭剑毅.基于支持向量机的汉语问句分类[J].华南理工大学学报（自然科学版）,2005,33(9):25-29. 被引量：20
5冯冲,陈肇雄,黄河燕,王江伟.最大熵模型的树-栅格最优N解码算法[J].计算机科学,2005,32(10):167-169. 被引量：1
6李跃进,赵晶,林鸿飞.基于Internet的军事演习信息抽取系统[J].计算机工程与应用,2006,42(14):214-218. 被引量：6
7刘贵全,曾宇斌.基于最大熵模型的汉语依存分析[J].计算机工程,2006,32(11):216-218. 被引量：2
8林煜明,李优.基于SVM的句子组块识别[J].山东大学学报（理学版）,2006,41(3):33-36.
9吕琳,刘玉树.最大熵和Brill方法结合识别英语BaseNPs[J].北京理工大学学报,2006,26(6):500-503. 被引量：6
10付斌,樊孝忠.基于神经元网络的问句组块分析[J].计算机技术与发展,2006,16(10):94-96.

同被引文献83

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
3陈俊燕,吴及,王侠,王作英.口语对话系统中的一种稳健语言理解算法[J].清华大学学报（自然科学版）,2005,45(1):21-24. 被引量：2
4孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
5刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8
6王立霞,孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3):80-86. 被引量：11
7李珩,朱靖波,姚天顺.基于Stacking算法的组合分类器及其应用于中文组块分析[J].计算机研究与发展,2005,42(5):844-848. 被引量：18
8余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
9由丽萍,范开泰,刘开瑛.汉语语义分析模型研究述评[J].中文信息学报,2005,19(6):57-63. 被引量：22
10黄德根,王莹莹.基于SVM的组块识别及其错误驱动学习方法[J].中文信息学报,2006,20(6):17-24. 被引量：6

引证文献5

1李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(3):1-8. 被引量：12
2魏楚元,湛强,樊孝忠,毛煜,张大奎.融合事件信息的中文问答系统问题语义表征[J].中文信息学报,2015,29(1):146-154. 被引量：2
3仵永栩,吕学强,周强,关晓炟.汉语概念复合块的自动分析[J].中文信息学报,2016,30(2):1-11. 被引量：1
4李成华,张世娟,刘磊,江小平.基于条件随机场的自然口语语义理解方法[J].中南民族大学学报（自然科学版）,2017,36(2):60-65.
5Jing Yang,Fanfu Zeng,Yong Wang,Hairui Yu,Le Zhang.Multiple Music Sentiment Classification Model Based on Convolutional Neural Network[J].国际计算机前沿大会会议论文集,2019(1):630-632.

二级引证文献15

1马建军,宗敏.功能小句自动句法分析结果的错误分析[J].鸡西大学学报（综合版）,2014,14(9):124-127.
2俞敬松,王惠临,吴胜兰.高正确率的双语语块对齐算法研究[J].中文信息学报,2015,29(1):67-74. 被引量：5
3李业刚,黄河燕,鉴萍.引入混合特征的最大名词短语双向标注融合算法[J].自动化学报,2015,41(7):1274-1282. 被引量：4
4杜思奇,李红莲,吕学强.汉语组块分析在产品特征提取中的应用研究[J].现代图书情报技术,2015(9):26-30. 被引量：4
5李洪政,晋耀红.汉语介词短语自动识别研究综述[J].中文信息学报,2017,31(2):1-10. 被引量：1
6冶忠林,贾真,尹红风.多领域自然语言问句理解研究[J].计算机科学,2017,44(6):216-221. 被引量：6
7周文,欧阳纯萍,阳小华,刘志明,张书卿,饶婕.一种基于情感依存元组的简单句情感判别方法[J].中文信息学报,2017,31(3):177-183. 被引量：2
8刘臣,韩林,李丹丹,安咏雪,霍良安.基于汉语组块产品特征——观点对提取与情感分析研究[J].计算机应用研究,2017,34(10):2942-2945. 被引量：4
9胡富茂,张克亮.面向机器翻译的双语语块对应研究[J].外语电化教学,2018(3):83-87. 被引量：3
10郑庆华,董博,钱步月,田锋,魏笔凡,张未展,刘均.智慧教育研究现状与发展趋势[J].计算机研究与发展,2019,56(1):209-224. 被引量：75

1孙广路,王晓龙,刘秉权,关毅.基于词聚类特征的统计中文组块分析模型[J].电子学报,2008,36(12):2450-2453. 被引量：7
2李素建,刘群,杨志峰.基于最大熵模型的组块分析[J].计算机学报,2003,26(12):1722-1727. 被引量：58
3别致,周俊生,陈家骏.基于SVM-Adaboost的中文组块分析[J].计算机工程与应用,2008,44(21):171-173. 被引量：1
4徐中一,胡谦,刘磊.基于CRF的中文组块分析[J].吉林大学学报（理学版）,2007,45(3):416-420. 被引量：7
5李珩,朱靖波,姚天顺.基于SVM的中文组块分析[J].中文信息学报,2004,18(2):1-7. 被引量：50
6周晶.基于条件随机域模型的中文实体关系抽取[J].计算机工程,2010,36(24):192-194. 被引量：2
7孙广路,王晓龙,郎非,刘远超.条件随机域模型及在语言分析系统中的应用[J].电机与控制学报,2008,12(1):113-116. 被引量：1
8刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8
9秦颖,王小捷,钟义信.级联中文组块识别[J].北京邮电大学学报,2008,31(1):14-17. 被引量：2
10张坤,刘妍,王达.针对最大熵模型和条件随机域模型的研究[J].黑龙江科技信息,2007(12X):31-31.

哈尔滨工业大学学报

2011年第7期

浏览历史

内容加载中请稍等...

基于条件随机域和语义类的中文组块分析方法被引量：5

参考文献4

二级参考文献39

共引文献85

同被引文献83

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于条件随机域和语义类的中文组块分析方法 被引量：5

参考文献4

二级参考文献39

共引文献85

同被引文献83

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于条件随机域和语义类的中文组块分析方法被引量：5