语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》被引量：11

Standardization for Corpus Processing

下载PDF

导出

摘要本文就制定《信息处理用现代汉语词类标记集规范》阐述我们对于规范问题的看法和做法。规范不是强制的 ,只规范加工结果 ,不规范加工过程。《规范》研制的目的在于为中文信息处理研究提供一套可以作为国家规范的现代汉语词类标记集体系 ,以便各个中文信息处理系统能够使用规范统一的词类标记集。这个《规范》试图解决词类标记的统一问题 ,该《规范》的特点是 :继承性 ,单功能性 ,通用性和可扩充性。本文还主要讨论了关于研制规范的一些原则性问题和小类标记问题 ,最后给出基于《规范》的词性标注在真实语料中的覆盖实验数据。 This paper presents our comments on POS tag standardization and its methods. The standardization is by no means compulsory; it represents simply the output of processing and not the procedure. The main purpose for the standardization is to provide a POS tag as a norm for Chinese language processing, so that all the Chinese language processing can be normalized within this system. The characteristics for this standardization can be concluded as continuity, mono-functionality, generality and extensibility.The paper also discusses the problems of principle-setting and sub-categorization, and provides the experimental data of the coverage of the standardization-based POS tagging in corpus.

作者靳光瑾郭曙纶肖航章云帆

机构地区教育部语言文字应用研究所

出处《语言文字应用》 CSSCI 北大核心 2003年第4期16-24,共9页 Applied Linguistics

基金国家语委"十五"重大项目<现代汉语语料库的建设及深加工>(项目编号:ZDA105-44) 863计划的"智能化中文信息处理平台"课题(编号2001AA114040) 973的"中文语料库建设"课题(编号G199803051A-05)资助。

关键词词类标记集规范语料库《信息处理用现代汉语词类标记集规范》 POS tag standardization corpus

分类号 H08 [语言文字—语言学]

引文网络
相关文献

参考文献12

1白栓虎,夏莹,黄昌宁."汉语语料库词性标注方法研究"[A].机器翻译研究进展,电子工业出版社,1991. 被引量：1
2俞士汶."关于现代汉语词语的语法功能分类"[J].中国计算机报,1994年5月. 被引量：1
3姚天顺等著..自然语言理解一种让机器懂得人类语言的研究[M].北京:清华大学出版社；南宁,1995:335.
4黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
5刘开瑛著..中文文本自动分词和标注[M].北京:商务印书馆,2000:286.
6孙茂松,王洪君,李行健,富丽,黄昌宁,陈松岑,谢自立,张卫国.《信息处理用词汇研究》九五项目结题汇报信息处理用现代汉语分词词表[J].语言文字应用,2001(4):84-89. 被引量：24
7吕叔湘著..汉语语法分析问题[M].北京:商务印书馆,1979:113.
8朱德熙著..现代汉语语法研究[M].北京:商务印书馆,2001:224.
9张斌,胡裕树著..汉语语法研究[M].北京:商务印书馆,1989:282.
10信息处理用现代汉语词类标记集规范[J].语言文字应用,2001(3):16-20. 被引量：13

二级参考文献3

1孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
2国家技术监督局,中华人民共和国国家标准GB/T 13715-92《信息处理用现代汉语分词规范》,中国标准出版社,1993. 被引量：1
3孙茂松,信息处理用现代汉语分词词表的设计原则[J].《计算语言学文集》,清华大学出版社,1999. 被引量：2

共引文献110

1梁晓弘,杨文安.分词技术在信息处理中的研究综述[J].电脑知识与技术（过刊）,2007(22):1100-1102. 被引量：1
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
4文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
5龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
6方莹,杨尔弘.计算大规模语料中四字词串互信息的算法设计[J].电脑开发与应用,2005,18(1):2-3.
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8吴登堂.关于字母词的思考——兼谈中文信息处理对字母词自动切分的构想[J].丹东师专学报,2003,25(2):25-27. 被引量：4
9文庭孝,侯经川,邱均平,张洋.汉语自动分词新思维:无词典切分[J].情报杂志,2005,24(2):2-4. 被引量：2
10年玉萍.中文信息处理与词汇研究概述[J].西安电子科技大学学报（社会科学版）,2002,12(2):89-91. 被引量：1

同被引文献97

1谢承志.语素定义中的偏颇[J].上海师范大学学报（哲学社会科学版）,1997,26(4):128-130. 被引量：1
2孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
3张普.关于大规模真实文本语料库的几点理论思考[J].语言文字应用,1999(1):35-44. 被引量：49
4李文中.语料库、学习者语料库与外语教学[J].外语界,1999(1):51-55. 被引量：157
5陈小荷.一个面向工程的语义分析体系[J].语言文字应用,1998(2):73-78. 被引量：11
6孙宏林.浅谈汉语分词的标准[J].语言文字应用,1997(4):107-110. 被引量：6
7宋柔.关于分词规范的探讨[J].语言文字应用,1997(3):113-114. 被引量：12
8周荐.熟语的经典性和非经典性[J].语文研究,1994(3):33-38. 被引量：16
9方一新.东汉语料与词汇史研究刍议[J].中国语文,1996(2):140-144. 被引量：31
10俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5):1-10. 被引量：29

引证文献11

1化振红.建立中古汉语语料库分词规范的若干问题[J].语言研究集刊,2021(2):151-167. 被引量：2
2高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1
3俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5):1-10. 被引量：29
4徐紫云.古代汉语标注语料库的建设与应用[J].华东交通大学学报,2005,22(6):159-162. 被引量：2
5索娟娟.信息时代计算语言学在英语教学中的应用[J].毕节学院学报（综合版）,2008,26(1):117-119.
6陈昌熊,赵京雷.汉语名物化复合词识别[J].计算机应用与软件,2008,25(9):283-285.
7韩蕾.语料库建设中的名词标注方法[J].枣庄学院学报,2009,26(3):27-33.
8牛雅娴,刘丙丽,万红雅,董艺.从句法分析看词性标注[J].现代语文（下旬．语言研究）,2009(12):76-78.
9才让加.藏语语料库加工方法研究[J].计算机工程与应用,2011,47(6):138-139. 被引量：13
10张统宣.高等师范学校古代汉语教学语料库建设[J].价值工程,2011,30(22):264-265.

二级引证文献52

1高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1
2林素絮,曾颖.电子政务知识库建设[J].情报探索,2005(3):7-9. 被引量：3
3柏晓静,俞士汶.面向中文学术专著的机器辅助翻译研究[J].中国翻译,2006,27(2):78-84. 被引量：6
4俞士汶,柏晓静.计算语言学与外语教学[J].外语电化教学,2006(5):3-11. 被引量：8
5顾铮,顾平.信息抽取技术在中医研究中的应用[J].医学信息（西安上半月）,2007,20(1):27-30. 被引量：11
6昝红英,张坤丽,柴玉梅,俞士汶.现代汉语虚词知识库的研究[J].中文信息学报,2007,21(5):107-111. 被引量：27
7俞士汶.建设综合型语言知识库的理念与成果的价值[J].中文信息学报,2007,21(6):3-12. 被引量：12
8索娟娟.信息时代计算语言学在英语教学中的应用[J].毕节学院学报（综合版）,2008,26(1):117-119.
9刘耀,穗志方,周扬,王振国.中医药本体概念描述体系的自动构建研究[J].现代图书情报技术,2008(5):21-26. 被引量：5
10刘耀,段慧明,王惠临,周扬,王振国,李宏展.中医药古文献语料库设计与开发研究[J].中文信息学报,2008,22(4):24-30. 被引量：8

1信息处理用现代汉语词类标记集规范[J].语言文字应用,2001(3):16-20. 被引量：13
2方春平,管建和.HMM在词性标注中的应用[J].中国科技博览,2009(6):137-137.
3李思鉴,丁志强.基于Web Services的软件开发过程[J].计算机与数字工程,2006,34(8):82-84. 被引量：6
4刘觉滨.中文信息处理研究的一项历史使命[J].中文信息,1992(2):25-27.
5沈云琴,王细薇.《C语言程序设计》课程教学探讨[J].福建电脑,2010,26(5):213-214. 被引量：2
6戴冬梅.浅谈校园网络的安全防范[J].科技资讯,2008,6(10):219-220.
7江光杰,郝伟刚.实时UNIX中文信息处理系统[J].军事通信技术,1993(1):26-31.
8袁光环.小学英语教师词汇教学策略应用的调查及分析[J].基础教育外语教学研究,2009(5):21-24. 被引量：2
9语信司.语言文字信息处理国家标准《信息处理用现代汉语词类标记规范》发布出版[J].语言文字应用,2007(2):95-95.
10彭琦,俞春强.浅析中文分词方法[J].信息通信,2015,28(3):92-93. 被引量：4

语言文字应用

2003年第4期

浏览历史

内容加载中请稍等...

语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》被引量：11

参考文献12

二级参考文献3

共引文献110

同被引文献97

引证文献11

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》 被引量：11

参考文献12

二级参考文献3

共引文献110

同被引文献97

引证文献11

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》被引量：11