藏文自动分词系统中紧缩词的识别被引量：70

Identification of Abbreviated Word in Tibetan Word Segmentation

下载PDF

导出

摘要在藏文信息处理中,涉及句法、语义都需要以词为基本单位,句法分析、语句理解、自动文摘、自动分类和机器翻译等,都是在切词之后基于词的层面来完成各项处理。因此,藏文分词是藏文信息处理的基础。该文通过研究藏文自动分词中的紧缩词,首次提出了它的一种识别方案,即还原法,并给出了还原算法。其基本思想是:利用藏文紧缩词的添接规则还原藏文原文,以达到进行分词的目的。该还原算法已应用到笔者承担的国家语委项目中。经测试,在85万字节的藏文语料中紧缩词的识别准确率达99.83%。 In Tibetan information processing, the word is to be treated as the fundamental unit for parsing, the sentence comprehension, the automatic abstract, the automatic classification, the machine translation and so on, Therefore, Tibetan word segmentation is essential for Tibetan information processing. Through the analysis of abbreviated word in Tibetan,, this article proposes a new method of restoration to identify the abbreviated word for Tibetan word segmentation. The basic idea of the restoration method is to re-establish the abbreviated Tibetan word to its original form by the reinstallation rules. The method has been applied in a research project of National Language Committee, with a testing result from a 850 000 byte Tibetan corpus reaching the accuracy of 99.83%.

作者才智杰

机构地区青海师范大学藏文智能信息处理中心

出处《中文信息学报》 CSCD 北大核心 2009年第1期35-37,43,共4页 Journal of Chinese Information Processing

基金国家语委资助项目(MZ05-118)

关键词计算机应用中文信息处理紧缩词藏文分词还原法格助词 computer application Chinese information processing abbreviated word, Tibetan word segmentation, restoration method, case-auxiliary word

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1陈玉忠,李保利,俞士汶,兰措吉.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003(1):75-82. 被引量：49
2陈玉忠.信息处理用现代藏语词语的分类方案[C]//第十届全国少数民族语言文字处理学术研讨会论文集,2005. 被引量：4
3中文分词[EB/OL].http://www.FullSearcher.Com/n2004911134640735.asp. 被引量：1
4陈玉忠,李保利,俞士汶.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3):15-20. 被引量：51
5才旦夏茸.藏文文法详解[M].西宁:青海民族出版社,1988. 被引量：7
6才智杰,索南仁欠.藏文分词算法研究[C]//第十一届全国民族语言文字信息学术研讨会论文集,2007:498-503. 被引量：2
7刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65
8才智杰.藏汉英电子词典的开发研究[J].青海师范大学学报（自然科学版）,2005,21(2):48-50. 被引量：8

二级参考文献19

1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
2刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
4才旦夏茸.藏文文法详解[M].西宁：青海民族出版社,1988.. 被引量：2
5黄昌宁，语言信息处理专论，1996年被引量：1
6Li Junjie，J Harbin Inst Technol，1995年，2卷，2期被引量：1
7何克抗，中文信息学报，1995年，5卷，2期，1,28页被引量：1
8李俊杰，博士学位论文，1995年被引量：1
9刘源，信息处理用现代汉语分词规范及自动分词方法，1994年被引量：1
10姚天顺，中文信息学报，1990年，4卷，1期被引量：1

共引文献157

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
3才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
4文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
5孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
6张雷生 ,万绍俊 ,许鹏文 .简单中文自动摘要系统研究[J].装备指挥技术学院学报,2004,15(3):105-109. 被引量：1
7李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
8孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
9江荻.书面藏语的续连规则及词形变体的自动识别[J].民族语文,2004(6):50-54. 被引量：1
10文庭孝,侯经川,邱均平,张洋.汉语自动分词新思维:无词典切分[J].情报杂志,2005,24(2):2-4. 被引量：2

同被引文献491

1华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
2才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：3
3李永宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报（自然科学版）,2008,48(S1):621-626. 被引量：20
4尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
5李乐强,唐常杰,左劼,邱源枞,段磊,李川.基于同现度和自学习的中文字符组合发现[J].计算机研究与发展,2007,44(z3):268-272. 被引量：2
6普布旦增,欧珠.藏文分词中交集型歧义字段的切分方法研究[J].西藏大学学报（社会科学版）,2010,25(S1):196-197. 被引量：2
7紫腾嘉,李学琴.藏语的数量词[J].西南民族大学学报（人文社会科学版）,1999,20(S2):25-29. 被引量：1
8J,W,德庸,杨元芳.敦煌古藏文《罗摩衍那》写本[J].西藏研究,1987(1):116-126. 被引量：2
9才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
10索南才让.面向自然语言处理的藏语虚词la格研究[J].西藏大学学报（社会科学版）,2013,28(5):48-52. 被引量：2

引证文献70

1才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
2高定国,关白.回顾藏文信息处理技术的发展[J].西藏大学学报（社会科学版）,2009,24(3):18-27. 被引量：15
3才智杰,才让卓玛.基于建构主义学习理论的藏文音素拼读法MCAI设计[J].微计算机信息,2010,26(6):220-221. 被引量：1
4才让卓玛,才智杰.现代藏文字构件分解方法[J].青海大学学报（自然科学版）,2010,28(4):83-86. 被引量：7
5才智杰,才让卓玛.班智达藏文标注词典设计[J].中文信息学报,2010,24(5):46-49. 被引量：15
6才智杰.班智达藏文自动分词系统的设计与实现[J].青海师范大学民族师范学院学报,2010,21(2):75-77. 被引量：18
7才让加.藏语语料库加工方法研究[J].计算机工程与应用,2011,47(6):138-139. 被引量：13
8才让卓玛,才智杰.藏文字频统计系统中字构件分解算法[J].计算机工程与科学,2011,33(3):159-162. 被引量：4
9才智杰,才让卓玛.藏文自动分词系统的设计[J].计算机工程与科学,2011,33(5):151-154. 被引量：14
10关白.自动校对中现代藏文音节字研究[J].西藏大学学报（社会科学版）,2011,26(2):69-75. 被引量：11

二级引证文献259

1华林,陈燕,刘凌慧子.藏族记忆构建视域下藏族档案数字资源跨业界整合研究[J].西藏民族大学学报（哲学社会科学版）,2021,42(2):52-60. 被引量：7
2马进,杨一帆,陈文亮.基于远程监督的人物属性抽取研究[J].中文信息学报,2020(6):64-72. 被引量：11
3华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
4才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：3
5焦自程,赵旭章,史珂轩.双语问答小程序的设计与实现[J].新一代信息技术,2022,5(5):18-20.
6多拉.藏语语义理解中功能性虚词研究[J].西藏大学学报（社会科学版）,2011,26(4):106-112. 被引量：4
7高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1
8拥措.基于朴素贝叶斯算法的藏文垃圾短信过滤初探[J].西藏大学学报（社会科学版）,2013,28(4):59-64.
9仁青诺布,高红梅,王国宏,杨鹏,索朗旺堆.藏文在线输入法的设计与实现[J].西藏大学学报（社会科学版）,2013,28(4):65-69. 被引量：1
10完么扎西.藏语词语兼类情况及识别规则库[J].西藏大学学报（社会科学版）,2014,29(5):87-94.

1李亚超,加羊吉,宗成庆,于洪志.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报,2013,27(4):52-58. 被引量：27
2完么扎西,尼玛扎西.藏语自动分词中的几个关键问题的研究[J].中文信息学报,2014,28(4):132-139. 被引量：7
3项炜,金澎.基于词频学习和动态词频更新的藏文自动分词系统设计[J].计算机应用与软件,2014,31(5):106-109. 被引量：4
4才让卓玛,才智杰.基于语料库的藏语高频词抽取研究[J].计算机工程,2012,38(15):56-58. 被引量：3
5余金鹏,肖瑶,赖森贞.异常情况下快速恢复加热炉跟踪系统的研究[J].梅山科技,2012(3):33-35.
6于佳含.格助词“を”的功能与使用方法[J].科技视界,2013(25):192-192. 被引量：1
7巴桑杰布,羊毛卓玛,欧珠.藏文分词系统中紧缩格识别和藏字复原的算法研究[J].西藏科技,2012(2):73-75. 被引量：5
8刘汇丹,诺明花,赵维纳,吴健,贺也平.SegT:一个实用的藏文分词系统[J].中文信息学报,2012,26(1):97-103. 被引量：25
9才智杰.班智达藏文自动分词系统的设计与实现[J].青海师范大学民族师范学院学报,2010,21(2):75-77. 被引量：18
10包贵鑫,向洪波.C语言教学研究与实践[J].大众科技,2006,8(6):117-117. 被引量：10

中文信息学报

2009年第1期

浏览历史

内容加载中请稍等...

藏文自动分词系统中紧缩词的识别被引量：70

参考文献8

二级参考文献19

共引文献157

同被引文献491

引证文献70

二级引证文献259

相关作者

相关机构

相关主题

浏览历史

藏文自动分词系统中紧缩词的识别 被引量：70

参考文献8

二级参考文献19

共引文献157

同被引文献491

引证文献70

二级引证文献259

相关作者

相关机构

相关主题

浏览历史

藏文自动分词系统中紧缩词的识别被引量：70