-
题名藏文紧缩格识别方法
被引量:6
- 1
-
-
作者
拉玛扎西
才智杰
扎西吉
-
机构
青海师范大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2019年第4期1080-1083,共4页
-
基金
国家自然科学基金资助项目(61866032
61163018
+13 种基金
61262051)
国家社科基金(13BYY141
16BYY167
15BYY167)
国家教育部"春晖计划"合作科研项目(Z2012093
Z2016077)
青海省基础研究项目(2017-ZJ-767
2019-SF-129
2015-SF-520)
"长江学者和创新团队发展计划"创新团队资助项目(IRT1068)
青海省重点实验室项目(2013-Z-Y17
2014-Z-Y32
2015-Z-Y03)
藏文信息处理与机器翻译重点实验室(2013-Y-17)
-
文摘
分词是自然语言处理的一项基础性工作,对自然语言处理的后继工作有较大的影响。紧缩格的识别是藏文分词中最难、最重要的技术之一。通过剖析已有藏文紧缩词识别方法,分析藏文字词的特征,针对性地提出了识别藏文紧缩格的规则算法、添加—还原算法和最大熵模型的特征模板,从而得到基于规则、添加还原法与最大熵模型相结合的藏文紧缩格识别方法。实验数据表明,该方法识别藏文紧缩格的准确率、召回率和F1值分别达99. 26%、96. 47%、97. 85%,比现有最高的准确率有了较明显的提高。
-
关键词
藏文
自然语言处理
分词
紧缩格
-
Keywords
Tibetan
NLP
segmentation
abbreviated case-auxiliary words
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名藏语判断句的句法结构树构建方法
被引量:3
- 2
-
-
作者
扎西吉
才智杰
拉玛扎西
-
机构
青海师范大学计算机学院
-
出处
《西北民族大学学报(自然科学版)》
2017年第4期24-27,共4页
-
基金
国家自然科学基金资助项目(61163018
61262051
+11 种基金
61662061)
国家社科基金项目(13BYY141
16BYY167)
教育部"春晖计划"合作科研项目(Z2012093
Z2016077)
青海省基础研究项目(2017-ZJ-767
2015-SF-520)
"长江学者和创新团队发展计划"创新团队资助项目(IRT1068)
青海省重点实验室项目(2013-Z-Y17
2014-Z-Y32
2015-Z-Y03)
藏文信息处理与机器翻译重点实验室(2013-Y-17)
-
文摘
句法分析的研究一直是中文信息处理的重要领域,也是自然语言处理中一个重要的基础性任务.在机器翻译、信息抽取、语义检索和问答系统等很多的领域都有着广泛的应用前景,并且对句法分析提出了迫切的需求.因此,文章通过分析藏语判断句的特征,构造了其句法树生成规则,并通过PCFG解决句法歧义问题,即从歧义中选择概率最大的句法结构,最后通过CYK算法进行解码自动生成判断句句法结构树.
-
关键词
NLP
PCFG
藏语判断句
句法结构树
-
分类号
H214
[语言文字—少数民族语言]
-
-
题名基于PCFG的藏文疑问句句法分析
被引量:5
- 3
-
-
作者
班玛宝
才智杰
拉玛扎西
-
机构
青海师范大学计算机学院
藏文信息处理教育部重点实验室
青海省藏文信息处理与机器翻译重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2019年第2期67-74,共8页
-
基金
国家自然科学基金(61866032
61163018
+14 种基金
61262051)
国家社会科学基金(13BYY141
16BYY167
15BYY167)
教育部"春晖计划"合作科研项目(Z2012093
Z2016077)
青海省基础研究项目(2017-ZJ-767
2019-SF-129
2015-SF-520)
"长江学者和创新团队发展计划"创新团队资助项目(IRT1068)
青海省重点实验室项目(2013-Z-Y17
2014-Z-Y32
2015-Z-Y03)
藏文信息处理与机器翻译重点实验室(2013-Y-17)
青海师范大学2018-2019年度创新训练项目
-
文摘
藏文疑问句的句法分析在藏文问答系统、搜索引擎、信息的抽取和检索等领域有着广泛的应用前景。该文通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,归纳了各类藏文疑问句的结构特征,进而利用PCFG对藏文疑问句进行了句法分析。经测试,在封闭测试集上的准确率、召回率和F1值分别达97.6%、97.3%和97.4%,在开放测试集上的准确率、召回率和F1值分别达96.0%、95.4%和95.7%。
-
关键词
藏文疑问句
疑问代词
句法分析
PCFG
CYK
-
Keywords
Tibetan interrogative sentence
interrogative pronoun
syntactic analysis
PCFG
CYK
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于混合策略的藏文虚词识别方法
- 4
-
-
作者
拉玛扎西
才智杰
班玛宝
-
机构
青海师范大学计算机学院
青海省藏文信息处理与机器翻译重点实验室
藏文信息处理教育部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2019年第7期75-80,共6页
-
基金
国家自然科学基金(61866032,61163018,61262051,61662061)
国家社会科学基金(13BYY141,16BYY167,15BYY167)
+5 种基金
教育部“春晖计划”合作科研项目(Z2012093,Z2016077)
青海省基础研究项目(2017-ZJ-767,2019-SF-129,2015-SF-520)
“长江学者和创新团队发展计划”创新团队资助项目(IRT1068)
青海省重点实验室项目(2013-Z-Y17,2014-Z-Y32,2015-Z-Y03)
藏文信息处理与机器翻译重点实验室项目(2013-Y-17)
青海师范大学2017、2018年度创新训练项目
-
文摘
藏文虚词在歧义消解、句法、句型和语义处理等方面起着重要的语法作用。该文在分析传统藏文虚词研究成果的基础上,统计了面向自然语言处理的藏文虚词及特征,提出了基于规则和最大熵模型相结合的藏文虚词识别策略。实验表明,该方法识别藏文虚词的准确率、召回率和F1值分别达98.39%、98.75%、98.57%。
-
关键词
自然语言处理
藏文虚词
基于规则
最大熵模型
-
Keywords
NLP
Tibetan function words
rule-based
maximum entropy model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-