汉语功能块自动分析被引量：13

Automatic Parsing of Chinese Functional Chunks

下载PDF

导出

摘要汉语功能块描述了句子的基本骨架,是联结句法结构和语义描述的重要桥梁。本文提出了两种不同功能块分析模型:边界识别模型和序列标记模型,并使用不同的机器学习方法进行了计算模拟。通过两种模型分析结果的有机融合,充分利用了两者分析结果的互补性,对汉语句子的主谓宾状四个典型功能块的自动识别性能达到了80%以上。实验结果显示,基于局部词汇语境机器学习算法可以从不同侧面准确识别出大部分功能块,句子中复杂从句和多动词连用结构等是主要的识别难点。 Chinese functional chunks are defined as a series of non-overlapping, non-nested skeleton segments of a sentence, representing the implicit grammatical relations between the sentence-level predicates and their arguments. In this paper, we proposed two statistical models for parsing four main functional chunks in a sentence. In the chunk boundary detection model, we focus on building the sub models based on SVM algorithm for detecting SP （subjectpredicate） and PO （predicate-object） boundaries. In the sequence labeling model, we formulate the chunking task as a sequence labeling problem and base our model on CRF algorithm, By introducing some revision rules, we build a combined parsing model which integrates the advantages of both statistical models and have achieved the best F- Score of 82.93%, 86, 58%, 78.46% and 86.64% for subject, predicate, object and adverb functional chunks respectively. Experimental results show that the complex clauses and serial verb structures are the main recognition difficulties.

作者周强赵颖泽

机构地区清华大学计算机系智能技术与系统国家重点实验室

出处《中文信息学报》 CSCD 北大核心 2007年第5期18-24,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(6057318560 520130299)

关键词计算机应用中文信息处理汉语功能块边界识别模型序列标记模型模型融合 computer application Chinese information processing functional chunk boundary recognition model sequence labeling model model merging

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1Lance A.Ramshaw and Mitchell P.Marcus.Text Chunking Using Transformation-Based Learning[A].In:Proceedings of the Third ACL Workshop on Very Large Corpora8[C].Cambridge MA,USA:1995. 被引量：1
2Erik F.Tjong Kim Sang and Sabine Buchholz.Introduction to CoNLL-200 Shared Task:Chunking[A].In:Proceedings of CoNLL-2000 and LLL-2000[C].Lisbon,Portugal:2000.127-132. 被引量：1
3Erik F.Tjong Kim Sang and Herv D jean.Introduction to the CoNLL-2001 Shared Task:Clause Identification[A].In:Proceedings of CoNLL-2001[C].Toulouse,France:2001.53-57. 被引量：1
4Xavier Carreras and Llus Marquez.Introduction to the CoNLL-2004 shared task:Semantic role labeling[A].In:Proceedings of the Conference on Computational Natural Language Learning (CoNLL)[C].Boston,MA:May,2004. 被引量：1
5Xavier Carreras and Llu s M arquez.Introduction to the CoNLL-2005 Shared Task:Semantic Role Labeling[A].In:Proceedings of the CoNLL-2005[C].2005. 被引量：1
6周强,任海波,詹卫东.构建大规模汉语语块库[A].黄昌宁,张普主编自然语言理解与机器翻译[C].北京:清华大学出版社,2001.102-107. 被引量：2
7Steven Abney.Parsing By Chunks[A].In:Robert Berwick,Steven Abney and Carol Tenny (eds.),Principle-Based Parsing[C].Kluwer Academic Publishers,Dordrecht.1991. 被引量：1
8Yingze Zhao,Qiang Zhou A SVM-based Model for Chinese Functional Chunk Parsing[A].In:Proc.of the Fifth SIGHAN Workshop on Chinese Language Processing[C].Sydney:2006.94-101. 被引量：1
9Vladimir N.Vapnik.The Nature of Statistical Learning Theory[M].Springer,1995. 被引量：1
10John Lafferty,Fernando Pereira,and Andrew McCallum.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[A].In:International Conference on Machine Learning (ICML'01)[C].2001.282-289. 被引量：1

共引文献4

1岑涌,罗林开.一种改善非平衡分布数据SVM分类能力的新策略[J].计算机与数字工程,2006,34(11):103-105. 被引量：3
2张海雷,曹菲菲,陈文亮,任飞亮,王会珍,朱靖波.基于多层次特征集成的中文实体指代识别[J].中文信息学报,2007,21(5):126-130. 被引量：1
3陈亿,周强,宇航.分层次的汉语功能块描述库构建分析[J].中文信息学报,2008,22(3):24-31. 被引量：8
4Shuting Xu,SangBaeKim,Jun Zhang.Using Spatial Data Mining to Predict the Solvability Space of Preconditioned Sparse Linear Systems[J].Computer Technology and Application,2016,7(3):139-148.

同被引文献164

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
3程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
4江荻.藏语拉萨话的体貌、示证及自我中心范畴[J].语言科学,2005,4(1):70-88. 被引量：29
5孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
6党政法,周强.短语树到依存树的自动转换研究[J].中文信息学报,2005,19(3):21-27. 被引量：12
7刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8
8王立霞,孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3):80-86. 被引量：11
9李珩,朱靖波,姚天顺.基于Stacking算法的组合分类器及其应用于中文组块分析[J].计算机研究与发展,2005,42(5):844-848. 被引量：18
10江荻,胡鸿雁.现代藏语形容词谓语的构造及识别方法(英文)[J].语言研究,2005,25(2):115-122. 被引量：3

引证文献13

1王立群.依存关系正确理解的基础上的日中翻译[J].电脑知识与技术,2009,5(10):8011-8013.
2李双红,李茹,钟立军,郭伟昱.基于多词块的框架元素语义核心词自动识别研究[J].中文信息学报,2010,24(1):30-36. 被引量：4
3周强,李玉梅.汉语块分析评测任务设计[J].中文信息学报,2010,24(1):123-128. 被引量：9
4周惠巍,黄德根,钱志强,杨元生.短语结构到依存结构树库转换研究[J].大连理工大学学报,2010,50(4):609-613. 被引量：6
5刘海霞,黄德根.语义信息与CRF结合的汉语功能块自动识别[J].中文信息学报,2011,25(5):53-59. 被引量：4
6李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(3):1-8. 被引量：12
7李琳,龙从军,江荻.藏语句法功能组块的边界识别[J].中文信息学报,2013,27(6):165-168. 被引量：10
8陈天莹.文本信息中的目标动向感知技术[J].电讯技术,2014,54(6):730-734. 被引量：1
9刘全超,黄河燕,冯冲.基于多特征微博话题情感倾向性判定算法研究[J].中文信息学报,2014,28(4):123-131. 被引量：17
10王天航,史树敏,龙从军,黄河燕,李琳.基于错误驱动学习策略的藏语句法功能组块边界识别[J].中文信息学报,2014,28(5):170-175. 被引量：7

二级引证文献64

1孙广路,郎非,薛一波.基于条件随机域和语义类的中文组块分析方法[J].哈尔滨工业大学学报,2011,43(7):135-139. 被引量：5
2康旭珍,李茹,李双红.框架元素语义核心词自动识别研究[J].中文信息学报,2011,25(4):115-121. 被引量：1
3刘海霞,黄德根.语义信息与CRF结合的汉语功能块自动识别[J].中文信息学报,2011,25(5):53-59. 被引量：4
4刘开瑛.汉语框架语义网构建及其应用技术研究[J].中文信息学报,2011,25(6):46-52. 被引量：23
5李胜梅.“语篇言语块”的理论位置及研究路径[J].阜阳师范学院学报（社会科学版）,2012(3):14-20. 被引量：8
6李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(3):1-8. 被引量：12
7李茹,王智强,李双红,梁吉业,Collin Baker.基于框架语义分析的汉语句子相似度计算[J].计算机研究与发展,2013,50(8):1728-1736. 被引量：46
8李琳,龙从军,江荻.藏语句法功能组块的边界识别[J].中文信息学报,2013,27(6):165-168. 被引量：10
9马建军,宗敏.功能小句自动句法分析结果的错误分析[J].鸡西大学学报（综合版）,2014,14(9):124-127.
10钱揖丽,冯志茹.基于语块和条件随机场(CRFs)的韵律短语识别[J].中文信息学报,2014,28(5):32-38. 被引量：6

1刘海霞,黄德根.语义信息与CRF结合的汉语功能块自动识别[J].中文信息学报,2011,25(5):53-59. 被引量：4
2李国臣,王瑞波,李济洪.基于条件随机场模型的汉语功能块自动标注[J].计算机研究与发展,2010,47(2):336-343. 被引量：7
3张利伟,张航,张玉英.面部表情识别方法综述[J].自动化技术与应用,2009,28(1):93-97. 被引量：6
4陈亿,周强,宇航.分层次的汉语功能块描述库构建分析[J].中文信息学报,2008,22(3):24-31. 被引量：8
5郝志峰,杜慎芝,蔡瑞初,温雯.基于全局变量CRFs模型的微博情感对象识别方法[J].中文信息学报,2015,29(4):50-58. 被引量：7
6金丽.词汇习得中搭配意识的培养[J].科技信息,2009(31):305-306.
7付瑞吉,秦兵,刘挺.基于自学习的汉语开放域命名实体边界识别[J].智能计算机与应用,2014,4(4):1-4.
8司马平安.要你命3000辐射威胁论[J].大众软件,2006(18):28-35.
9温春,石昭祥,张亮.中文领域本体概念层次获取方法对比研究[J].计算机应用研究,2009,26(8):2847-2850. 被引量：8
10于翠红,张拥政.关联理论视阈下的语境与二语词汇语义认知[J].湖州师范学院学报,2011,33(4):101-103. 被引量：2

中文信息学报

2007年第5期

浏览历史

内容加载中请稍等...

汉语功能块自动分析被引量：13

参考文献16

共引文献4

同被引文献164

引证文献13

二级引证文献64

相关作者

相关机构

相关主题

浏览历史

汉语功能块自动分析 被引量：13

参考文献16

共引文献4

同被引文献164

引证文献13

二级引证文献64

相关作者

相关机构

相关主题

浏览历史

汉语功能块自动分析被引量：13