期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
45
篇文章
<
1
2
3
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
SegT:一个实用的藏文分词系统
被引量:
25
1
作者
刘汇丹
诺明花
+2 位作者
赵维纳
吴健
贺也平
《中文信息学报》
CSCD
北大核心
2012年第1期97-103,共7页
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,...
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。
展开更多
关键词
藏文分词
格助词
临界词识别
词频统计
藏文信息处理
中文信息处理
下载PDF
职称材料
藏语文-音自动规则转换及其实现
被引量:
20
2
作者
李永宏
孔江平
于洪志
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008年第S1期621-626,共6页
为满足语言学、音韵学和工程语音学的需要,该文根据现代藏文与3大方言语音之间的对应规律和藏文正字法,提出了从文字上对藏文声母和韵母拆分的"字丁分解法",实现了藏文到各方言国际音标的自动转换。并对算法和实现过程进行了...
为满足语言学、音韵学和工程语音学的需要,该文根据现代藏文与3大方言语音之间的对应规律和藏文正字法,提出了从文字上对藏文声母和韵母拆分的"字丁分解法",实现了藏文到各方言国际音标的自动转换。并对算法和实现过程进行了详细的阐述,建立了藏语13个方言点的方音数据库。方音数据库的建立为藏语方言研究和语言教学提供了科学、方便的工具,为藏语标准音的制定、推广及应用提供原始的语音材料,也能作为藏语语音识别和语音合成的标音基础。
展开更多
关键词
藏文信息处理
藏语方言
国际音标
藏语文-音转换
原文传递
面向信息处理的藏文分词规范研究
被引量:
18
3
作者
扎西加
珠杰
《中文信息学报》
CSCD
北大核心
2009年第4期113-117,123,共6页
自动分词是藏文信息处理领域的一项基础课题,也是智能化藏文信息处理的关键所在。在藏文信息处理"字词处理"层面上,需要解决词的切分问题,而词类划分的标准和词的正确切分是进行藏文文本处理的必要条件。为了便于计算机对自...
自动分词是藏文信息处理领域的一项基础课题,也是智能化藏文信息处理的关键所在。在藏文信息处理"字词处理"层面上,需要解决词的切分问题,而词类划分的标准和词的正确切分是进行藏文文本处理的必要条件。为了便于计算机对自动分词、词性标注的辨认,该文首先要确定满足藏文信息处理中词类的需求,并根据藏文自身的词汇特点与构词规律,提出了较为系统、适用的分词规范。
展开更多
关键词
计算机应用
中文信息处理
分词规范
藏文
信息处理
下载PDF
职称材料
最大熵和规则相结合的藏文句子边界识别方法
被引量:
17
4
作者
李响
才藏太
+2 位作者
姜文斌
吕雅娟
刘群
《中文信息学报》
CSCD
北大核心
2011年第4期39-44,共6页
句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利...
句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利用藏语句子边界规则减少了最大熵模型因训练语料稀疏或低劣而导致对句子边界的误判。实验表明,该文提出的方法具有较好的性能,F1值可达97.78%。
展开更多
关键词
最大熵
句子边界识别
藏文信息处理
下载PDF
职称材料
回顾藏文信息处理技术的发展
被引量:
15
5
作者
高定国
关白
《西藏大学学报(社会科学版)》
2009年第3期18-27,共10页
藏文有着悠久的历史,藏文字包含着丰富的信息。信息时代,对藏文的处理提出了新的研究课题——用计算机来处理藏文信息。八十年代中后期开始了藏文信息的研究工作,并且取得了较好的成绩。文章详细回顾了藏文的字处理、藏语自然语言处理...
藏文有着悠久的历史,藏文字包含着丰富的信息。信息时代,对藏文的处理提出了新的研究课题——用计算机来处理藏文信息。八十年代中后期开始了藏文信息的研究工作,并且取得了较好的成绩。文章详细回顾了藏文的字处理、藏语自然语言处理、藏文软件本地化以及藏文信息处理在应用领域中的研究。
展开更多
关键词
藏文
信息处理技术
本地化
下载PDF
职称材料
藏文拉丁转写的研究与实现
被引量:
13
6
作者
陈丽娜
祁坤钰
+2 位作者
贾彦民
吴健
康丽
《计算机工程与设计》
CSCD
北大核心
2006年第1期15-17,105,共4页
藏文拉丁转写是研究藏文化和进行藏文术语交流的重要工具。介绍了一种基于藏文编码字符集基本集和藏文编码字符集扩充集A,实现藏文拉丁转写的方法。通过引入垂直预组合的概念,将藏文由复杂文本变为简单文本,从而简化了拉丁转写的处理过...
藏文拉丁转写是研究藏文化和进行藏文术语交流的重要工具。介绍了一种基于藏文编码字符集基本集和藏文编码字符集扩充集A,实现藏文拉丁转写的方法。通过引入垂直预组合的概念,将藏文由复杂文本变为简单文本,从而简化了拉丁转写的处理过程,降低了算法复杂度。详细讲述了算法的原理及在OpenOffice.org中的实现。
展开更多
关键词
藏文
藏文信息处理
拉丁转写
垂直预组合
下载PDF
职称材料
信息处理用藏文分词单位研究
被引量:
12
7
作者
关白
《中文信息学报》
CSCD
北大核心
2010年第3期124-128,共5页
分词单位作为分词系统的基本单位,是研究分词理论的基础,要确立分词单位就必须有相应的理论体系。该文结合藏文已有的语法著作和汉语语义分类体系建立与分词单位相应的词类划分体系;参照《资讯处理用中文分词规范》和《信息处理用现代...
分词单位作为分词系统的基本单位,是研究分词理论的基础,要确立分词单位就必须有相应的理论体系。该文结合藏文已有的语法著作和汉语语义分类体系建立与分词单位相应的词类划分体系;参照《资讯处理用中文分词规范》和《信息处理用现代汉语分词规范》等标准,从藏文文本语料出发,建立切分分词单位的九项基本原则和三项辅助原则,以此词类划分体系和切分原则为理论依据对藏文的分词单位进行详细说明。
展开更多
关键词
计算机应用
中文信息处理
藏文分词
分词单位
信息处理
分词原则
下载PDF
职称材料
基于词典的汉藏句子对齐研究与实现
被引量:
10
8
作者
于新
吴健
洪锦玲
《中文信息学报》
CSCD
北大核心
2011年第4期57-62,共6页
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评...
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。
展开更多
关键词
汉藏句子对齐
词典
分词粒度
平行语料库
藏文信息处理
下载PDF
职称材料
藏文文本自动校对系统开发研究
被引量:
10
9
作者
才让卓玛
才智杰
《西北民族大学学报(自然科学版)》
2009年第1期25-28,共4页
文本自动校对在自然语言处理领域中有着广阔的应用前景.文章通过比较分析国内外文本自动校对系统的发展现状,提出了设计现代藏文文本自动校对系统的两种方案,并就第二种方案研究了现代藏文文本自动校对系统的结构和功能设计.
关键词
藏文信息处理
自动校对系统
机器翻译
构件.
下载PDF
职称材料
现代藏语助动词结尾句子边界识别方法
被引量:
7
10
作者
赵维纳
于新
+3 位作者
刘汇丹
李琳
王磊
吴健
《中文信息学报》
CSCD
北大核心
2013年第1期115-119,共5页
藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特...
藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特点提出藏语助动词结尾句子边界识别方法。
展开更多
关键词
藏语分句
藏语句子边界识别
藏语信息处理
中文信息处理
下载PDF
职称材料
汉藏短语对抽取中短语译文获取方法研究
被引量:
7
11
作者
诺明花
吴健
+1 位作者
刘汇丹
丁治明
《中文信息学报》
CSCD
北大核心
2011年第3期112-117,共6页
该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)...
该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。
展开更多
关键词
藏文语块
短语译文获取
藏文信息处理
中文信息处理
下载PDF
职称材料
藏文自动分词系统中虚词识别算法研究
被引量:
8
12
作者
拉巴顿珠
欧珠
赵栋材
《计算机应用与软件》
2017年第9期299-301,333,共4页
在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算...
在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上。
展开更多
关键词
藏文自动分词
藏文信息处理
虚词识别
藏文虚词
下载PDF
职称材料
基于栏目的藏文网页文本自动分类方法
被引量:
7
13
作者
胥桂仙
向春丞
+2 位作者
翁彧
赵小兵
杨国胜
《中文信息学报》
CSCD
北大核心
2011年第4期20-23,共4页
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别...
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。
展开更多
关键词
藏文信息处理
文本分类
藏文网页分类
下载PDF
职称材料
基于大规模网络语料的藏文音节拼写错误统计与分析
被引量:
6
14
作者
刘汇丹
洪锦玲
+1 位作者
诺明花
吴健
《中文信息学报》
CSCD
北大核心
2017年第2期61-70,共10页
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700...
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。
展开更多
关键词
藏文拼写检查
拼写检查
语料
统计
藏文信息处理
中文信息处理
下载PDF
职称材料
现代藏文字构件分解方法
被引量:
7
15
作者
才让卓玛
才智杰
《青海大学学报(自然科学版)》
2010年第4期83-86,共4页
文中通过分析藏文文法,提出了自动分解现代藏文字构件的方法,其基本思想是:利用藏文文法将藏文字分解为基本构件和组合构件,并通过建立组合构件属性库进一步将组合构件分解为基本构件,同时确定出各基本构件的位置特征。
关键词
藏文信息处理
构件
前加字
后加字
又后加字
下载PDF
职称材料
藏文信息处理研究进展
被引量:
6
16
作者
高定国
《广西科学院学报》
2018年第1期1-11,共11页
藏文有着悠久的历史,是藏族人民交流思想的工具。1997年,藏文编码字符集国际、国家标准的制定作为藏文信息处理的开始,至今正好20年。这20年中藏文信息处理起步、发展,取得了较好的成绩。本文简要回顾了藏文信息处理中字、词、句、段、...
藏文有着悠久的历史,是藏族人民交流思想的工具。1997年,藏文编码字符集国际、国家标准的制定作为藏文信息处理的开始,至今正好20年。这20年中藏文信息处理起步、发展,取得了较好的成绩。本文简要回顾了藏文信息处理中字、词、句、段、篇的特点、处理方法及取得的典型成果,也回顾了藏语资源建设和应用研究取得的成果,并对藏文信息处理未来的发展方向进行展望。希望能为迈入藏文信息处理的初学者展示一个藏文信息处理发展的脉络,提供一个参考。
展开更多
关键词
藏文
信息处理
藏语资源
下载PDF
职称材料
汉藏短语抽取
被引量:
5
17
作者
诺明花
张立强
+2 位作者
刘汇丹
吴健
丁治明
《中文信息学报》
CSCD
北大核心
2011年第2期105-110,121,共7页
该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交...
该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交算法抽取藏文短语。该算法可以很好的抽取1-1和1-n连续和非连续藏文短语。
展开更多
关键词
汉藏短语抽取
藏文信息处理
中文信息处理
下载PDF
职称材料
Web藏文文本资源挖掘与利用研究
被引量:
6
18
作者
刘汇丹
诺明花
+2 位作者
马龙龙
吴健
贺也平
《中文信息学报》
CSCD
北大核心
2015年第1期170-177,共8页
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧...
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。
展开更多
关键词
WEB
语料
文本挖掘
信息抽取
藏文信息处理
中文信息处理
下载PDF
职称材料
基于深度学习的藏文舆情分析研究
19
作者
公保加羊
拉玛杰
+1 位作者
官却多杰
索南多杰
《青海科技》
2023年第1期56-60,共5页
随着自然语言处理技术的快速发展,藏文信息处理技术也取得了较大进展。其中,藏文舆情分析作为藏族地区社会舆情分析的重要技术,受到广泛关注。但是,现有的藏文文本情感分析研究由于起步较晚,还存在很大提升空间。本文提出基于深度集成...
随着自然语言处理技术的快速发展,藏文信息处理技术也取得了较大进展。其中,藏文舆情分析作为藏族地区社会舆情分析的重要技术,受到广泛关注。但是,现有的藏文文本情感分析研究由于起步较晚,还存在很大提升空间。本文提出基于深度集成学习的藏文文本情感分析算法。并通过建立藏文情感数据集进行实验,本文算法在三类情感(正向、负向、中性)中精确率平均提升1.65%,召回率提升1.63%,F1分数提升1.96%。实验结果表明,本文采用的深度集成学习有效地提高了文本情感分类的性能。
展开更多
关键词
藏文信息处理
藏文舆情分析
文本情感分析
深度集成学习
藏文情感数据集
下载PDF
职称材料
藏文自动分词中未登录词处理方法研究
被引量:
5
20
作者
羊毛卓玛
高定国
《计算机工程》
CAS
CSCD
2012年第17期46-48,共3页
藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎...
藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎片切分现象,使用分词碎片整合方法,将多次出现的词条碎片整合为一个切分单位输出。实验结果表明,2种方法能提高藏文自动分词的识别正确率。
展开更多
关键词
藏文信息处理
词缀归并
未登录词
分词碎片整合
下载PDF
职称材料
题名
SegT:一个实用的藏文分词系统
被引量:
25
1
作者
刘汇丹
诺明花
赵维纳
吴健
贺也平
机构
中国科学院软件研究所
中国科学院研究生院
北京语言大学
青海师范大学
出处
《中文信息学报》
CSCD
北大核心
2012年第1期97-103,共7页
基金
国家重大科技专项资助项目(2010ZX01036-001-002
2010ZX01037-001-002)
中国科学院西部行动计划资助项目(KGCX2-YW-512)
文摘
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。
关键词
藏文分词
格助词
临界词识别
词频统计
藏文信息处理
中文信息处理
Keywords
tibetan
word
segmentation
case-auxiliary
words
critical
word
detection
word
frequency
statistics
tibetan
information processing
Chinese
information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
藏语文-音自动规则转换及其实现
被引量:
20
2
作者
李永宏
孔江平
于洪志
机构
西北民族大学中国民族信息技术研究院
北京大学中国语言文学系
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008年第S1期621-626,共6页
基金
国家民委重点科研项目([2006]16)
文摘
为满足语言学、音韵学和工程语音学的需要,该文根据现代藏文与3大方言语音之间的对应规律和藏文正字法,提出了从文字上对藏文声母和韵母拆分的"字丁分解法",实现了藏文到各方言国际音标的自动转换。并对算法和实现过程进行了详细的阐述,建立了藏语13个方言点的方音数据库。方音数据库的建立为藏语方言研究和语言教学提供了科学、方便的工具,为藏语标准音的制定、推广及应用提供原始的语音材料,也能作为藏语语音识别和语音合成的标音基础。
关键词
藏文信息处理
藏语方言
国际音标
藏语文-音转换
Keywords
tibetan
information processing
tibetan
dialect
International
Phonetic
Alphabet
tibetan
text
to
IPA
transformation
分类号
TN912.3 [电子电信—通信与信息系统]
原文传递
题名
面向信息处理的藏文分词规范研究
被引量:
18
3
作者
扎西加
珠杰
机构
西藏大学计算机科学系
出处
《中文信息学报》
CSCD
北大核心
2009年第4期113-117,123,共6页
基金
国家自然科学基金项目资助(60763010/F0206)
文摘
自动分词是藏文信息处理领域的一项基础课题,也是智能化藏文信息处理的关键所在。在藏文信息处理"字词处理"层面上,需要解决词的切分问题,而词类划分的标准和词的正确切分是进行藏文文本处理的必要条件。为了便于计算机对自动分词、词性标注的辨认,该文首先要确定满足藏文信息处理中词类的需求,并根据藏文自身的词汇特点与构词规律,提出了较为系统、适用的分词规范。
关键词
计算机应用
中文信息处理
分词规范
藏文
信息处理
Keywords
computer
application
Chinese
information processing
segmentation
scheme
tibetan
information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
最大熵和规则相结合的藏文句子边界识别方法
被引量:
17
4
作者
李响
才藏太
姜文斌
吕雅娟
刘群
机构
中国科学院计算技术研究所
青海师范大学计算机学院
出处
《中文信息学报》
CSCD
北大核心
2011年第4期39-44,共6页
基金
国家自然科学基金重大研究计划培育项目(90920004),国家自然科学基金重点资助项目(60736014)
文摘
句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利用藏语句子边界规则减少了最大熵模型因训练语料稀疏或低劣而导致对句子边界的误判。实验表明,该文提出的方法具有较好的性能,F1值可达97.78%。
关键词
最大熵
句子边界识别
藏文信息处理
Keywords
maximum
entropy
sentence
boundary
identification
tibetan
information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
回顾藏文信息处理技术的发展
被引量:
15
5
作者
高定国
关白
机构
西藏大学工学院
出处
《西藏大学学报(社会科学版)》
2009年第3期18-27,共10页
文摘
藏文有着悠久的历史,藏文字包含着丰富的信息。信息时代,对藏文的处理提出了新的研究课题——用计算机来处理藏文信息。八十年代中后期开始了藏文信息的研究工作,并且取得了较好的成绩。文章详细回顾了藏文的字处理、藏语自然语言处理、藏文软件本地化以及藏文信息处理在应用领域中的研究。
关键词
藏文
信息处理技术
本地化
Keywords
tibetan
information processing
localization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
藏文拉丁转写的研究与实现
被引量:
13
6
作者
陈丽娜
祁坤钰
贾彦民
吴健
康丽
机构
中国农业大学信息与电气工程学院
西北民族大学信息研究院
中科院软件所开放系统与中文信息处理中心
出处
《计算机工程与设计》
CSCD
北大核心
2006年第1期15-17,105,共4页
基金
国家863高技术研究发展基金项目(2003AA1Z2110)
中科院知识创新工程基金项目:(KGCX2-SW-504)
文摘
藏文拉丁转写是研究藏文化和进行藏文术语交流的重要工具。介绍了一种基于藏文编码字符集基本集和藏文编码字符集扩充集A,实现藏文拉丁转写的方法。通过引入垂直预组合的概念,将藏文由复杂文本变为简单文本,从而简化了拉丁转写的处理过程,降低了算法复杂度。详细讲述了算法的原理及在OpenOffice.org中的实现。
关键词
藏文
藏文信息处理
拉丁转写
垂直预组合
Keywords
tibetan
tibetan
information processing
transliteration
vertical
pre-composing
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
信息处理用藏文分词单位研究
被引量:
12
7
作者
关白
机构
西藏大学计算机科学技术系
出处
《中文信息学报》
CSCD
北大核心
2010年第3期124-128,共5页
文摘
分词单位作为分词系统的基本单位,是研究分词理论的基础,要确立分词单位就必须有相应的理论体系。该文结合藏文已有的语法著作和汉语语义分类体系建立与分词单位相应的词类划分体系;参照《资讯处理用中文分词规范》和《信息处理用现代汉语分词规范》等标准,从藏文文本语料出发,建立切分分词单位的九项基本原则和三项辅助原则,以此词类划分体系和切分原则为理论依据对藏文的分词单位进行详细说明。
关键词
计算机应用
中文信息处理
藏文分词
分词单位
信息处理
分词原则
Keywords
computer
application
Chinese
information processing
tibetan
word
segmentation
segmentation
unit
information processing
principle
of
word
segmentation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于词典的汉藏句子对齐研究与实现
被引量:
10
8
作者
于新
吴健
洪锦玲
机构
中国科学院软件研究所
中国科学院研究生院
出处
《中文信息学报》
CSCD
北大核心
2011年第4期57-62,共6页
基金
中国科学院西部行动计划高新技术项目(KGCX2-YW-512)
文摘
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。
关键词
汉藏句子对齐
词典
分词粒度
平行语料库
藏文信息处理
Keywords
Chinese-
tibetan
sentence
alignment
dictionary
word
segmentation
granularity
parallel
corpus
tibetan
information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
藏文文本自动校对系统开发研究
被引量:
10
9
作者
才让卓玛
才智杰
机构
青海师范大学计算机科学技术系
出处
《西北民族大学学报(自然科学版)》
2009年第1期25-28,共4页
基金
国家语委项目(项目编号:MZ05-118)
国家社会科学基金项目(项目编号:07BYY035)
文摘
文本自动校对在自然语言处理领域中有着广阔的应用前景.文章通过比较分析国内外文本自动校对系统的发展现状,提出了设计现代藏文文本自动校对系统的两种方案,并就第二种方案研究了现代藏文文本自动校对系统的结构和功能设计.
关键词
藏文信息处理
自动校对系统
机器翻译
构件.
Keywords
tibetan
information processing
Automatic
proofreading
Machine
translation
component
分类号
TP391.2 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
现代藏语助动词结尾句子边界识别方法
被引量:
7
10
作者
赵维纳
于新
刘汇丹
李琳
王磊
吴健
机构
青海师范大学
中国科学院软件研究所
中国科学院大学
中国社会科学院民族学与人类学研究所
北京语言大学
出处
《中文信息学报》
CSCD
北大核心
2013年第1期115-119,共5页
基金
国家重大科技专项资助项目(2010ZX01036-001-002
2010ZX01037-001-002)
+2 种基金
国家自然科学基金资助项目(61202219
61202220)
中国科学院知识创新工程资助项目(KGCX2-YW-512)
文摘
藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特点提出藏语助动词结尾句子边界识别方法。
关键词
藏语分句
藏语句子边界识别
藏语信息处理
中文信息处理
Keywords
sentence
boundary
detection
tibetan
sentence
boundary
detection
tibetan
information processing
Chinese
information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉藏短语对抽取中短语译文获取方法研究
被引量:
7
11
作者
诺明花
吴健
刘汇丹
丁治明
机构
中国科学院软件研究所
中国科学院研究生院
出处
《中文信息学报》
CSCD
北大核心
2011年第3期112-117,共6页
基金
中国科学院"西部行动计划高新技术项目"资助
文摘
该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。
关键词
藏文语块
短语译文获取
藏文信息处理
中文信息处理
Keywords
tibetan
chunk
phrase
translation
extraction
tibetan
information processing
Chinese
information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
藏文自动分词系统中虚词识别算法研究
被引量:
8
12
作者
拉巴顿珠
欧珠
赵栋材
机构
西藏大学藏文信息技术研究中心
西藏民族大学
出处
《计算机应用与软件》
2017年第9期299-301,333,共4页
基金
2015年度西藏大学研究生高水平人才培养项目
2016年教育部人文社会科学研究项目(16XZJCZH001)
2016年西藏自治区自然科学基金项目(2016ZR-15-5)
文摘
在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上。
关键词
藏文自动分词
藏文信息处理
虚词识别
藏文虚词
Keywords
tibetan
auto-segmentation
tibetan
information
-
processing
Function
words
recognition
tibetan
function
words
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于栏目的藏文网页文本自动分类方法
被引量:
7
13
作者
胥桂仙
向春丞
翁彧
赵小兵
杨国胜
机构
中央民族大学信息工程学院
国家语言资源监测与研究中心少数民族语言分中心
出处
《中文信息学报》
CSCD
北大核心
2011年第4期20-23,共4页
基金
国家科技支撑计划资助项目(2009BAH41B00)
文摘
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。
关键词
藏文信息处理
文本分类
藏文网页分类
Keywords
tibetan
information processing
text
classification
classification
of
tibetan
pages
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于大规模网络语料的藏文音节拼写错误统计与分析
被引量:
6
14
作者
刘汇丹
洪锦玲
诺明花
吴健
机构
中国科学院软件研究所
出处
《中文信息学报》
CSCD
北大核心
2017年第2期61-70,共10页
基金
国家自然科学基金(61202219
61303165)
+1 种基金
中国科学院信息化专项(XXH12504-1-10)
新闻出版重大科技工程(0610-1041BJNF 2328/23)
文摘
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。
关键词
藏文拼写检查
拼写检查
语料
统计
藏文信息处理
中文信息处理
Keywords
tibetan
spell
check
spell
check
corpus
tibetan
information processing
Chinese
information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
现代藏文字构件分解方法
被引量:
7
15
作者
才让卓玛
才智杰
机构
青海师范大学藏文信息研究中心
出处
《青海大学学报(自然科学版)》
2010年第4期83-86,共4页
基金
国家社科基金项目(09XYY024)
青海师范大学科研基金资助项目
文摘
文中通过分析藏文文法,提出了自动分解现代藏文字构件的方法,其基本思想是:利用藏文文法将藏文字分解为基本构件和组合构件,并通过建立组合构件属性库进一步将组合构件分解为基本构件,同时确定出各基本构件的位置特征。
关键词
藏文信息处理
构件
前加字
后加字
又后加字
Keywords
tibetan
information processing
component
former
letter
later
letter
backmost
letter
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
藏文信息处理研究进展
被引量:
6
16
作者
高定国
机构
西藏大学
出处
《广西科学院学报》
2018年第1期1-11,共11页
基金
国家自然科学基金项目“跨语言社会舆情分析基础理论与关键技术研究”(61331013)
2015年度国家社会科学基金重大项目“《格萨尔》说唱语音的自动识别与格萨尔学的创新发展”(15ZDB111)
西藏大学珠峰学者人才发展支持计划项目资助
文摘
藏文有着悠久的历史,是藏族人民交流思想的工具。1997年,藏文编码字符集国际、国家标准的制定作为藏文信息处理的开始,至今正好20年。这20年中藏文信息处理起步、发展,取得了较好的成绩。本文简要回顾了藏文信息处理中字、词、句、段、篇的特点、处理方法及取得的典型成果,也回顾了藏语资源建设和应用研究取得的成果,并对藏文信息处理未来的发展方向进行展望。希望能为迈入藏文信息处理的初学者展示一个藏文信息处理发展的脉络,提供一个参考。
关键词
藏文
信息处理
藏语资源
Keywords
tibetan
,
information processing
,
tibetan
language
resources
分类号
TP317.2 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
汉藏短语抽取
被引量:
5
17
作者
诺明花
张立强
刘汇丹
吴健
丁治明
机构
中国科学院软件研究所
中国科学院研究生院
出处
《中文信息学报》
CSCD
北大核心
2011年第2期105-110,121,共7页
基金
中国科学院"西部行动计划高新技术项目"资助(KGCX2-YW-512)
文摘
该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交算法抽取藏文短语。该算法可以很好的抽取1-1和1-n连续和非连续藏文短语。
关键词
汉藏短语抽取
藏文信息处理
中文信息处理
Keywords
Chinese
tibetan
phrase
extraction
tibetan
information processing
Chinese
information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web藏文文本资源挖掘与利用研究
被引量:
6
18
作者
刘汇丹
诺明花
马龙龙
吴健
贺也平
机构
中国科学院软件研究所
中国科学院大学
出处
《中文信息学报》
CSCD
北大核心
2015年第1期170-177,共8页
基金
国家自然科学基金(61202219
61202220
+1 种基金
61303165)
中国科学院信息化专项经费资助(XXH12504-1-10)
文摘
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。
关键词
WEB
语料
文本挖掘
信息抽取
藏文信息处理
中文信息处理
Keywords
Web
corpus
text
mining
information
extraction
tibetan
information processing
Chinese
information
processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于深度学习的藏文舆情分析研究
19
作者
公保加羊
拉玛杰
官却多杰
索南多杰
机构
青海省海南州藏文信息技术研究中心
出处
《青海科技》
2023年第1期56-60,共5页
基金
青海省重点研发与转化计划—科技成果转化专项项目“‘云藏’高效爬虫及检索系统优化与集成”(2020-GX-164)。
文摘
随着自然语言处理技术的快速发展,藏文信息处理技术也取得了较大进展。其中,藏文舆情分析作为藏族地区社会舆情分析的重要技术,受到广泛关注。但是,现有的藏文文本情感分析研究由于起步较晚,还存在很大提升空间。本文提出基于深度集成学习的藏文文本情感分析算法。并通过建立藏文情感数据集进行实验,本文算法在三类情感(正向、负向、中性)中精确率平均提升1.65%,召回率提升1.63%,F1分数提升1.96%。实验结果表明,本文采用的深度集成学习有效地提高了文本情感分类的性能。
关键词
藏文信息处理
藏文舆情分析
文本情感分析
深度集成学习
藏文情感数据集
Keywords
tibetan
information processing
tibetan
public
opinion
analysis
Text
sentiment
analysis
Deep
integrated
learning
tibetan
sentiment
dataset
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
TP391.1 [自动化与计算机技术—控制科学与工程]
下载PDF
职称材料
题名
藏文自动分词中未登录词处理方法研究
被引量:
5
20
作者
羊毛卓玛
高定国
机构
西藏大学工学院
青海师范大学民族师范学院
出处
《计算机工程》
CAS
CSCD
2012年第17期46-48,共3页
基金
国家自然科学基金资助项目"基于虚词的藏文基本句型的格式化研究"(6106315)
文摘
藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎片切分现象,使用分词碎片整合方法,将多次出现的词条碎片整合为一个切分单位输出。实验结果表明,2种方法能提高藏文自动分词的识别正确率。
关键词
藏文信息处理
词缀归并
未登录词
分词碎片整合
Keywords
tibetan
information processing
affix
merging
unknown
word
word
segmentation
fragment
integration
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
SegT:一个实用的藏文分词系统
刘汇丹
诺明花
赵维纳
吴健
贺也平
《中文信息学报》
CSCD
北大核心
2012
25
下载PDF
职称材料
2
藏语文-音自动规则转换及其实现
李永宏
孔江平
于洪志
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008
20
原文传递
3
面向信息处理的藏文分词规范研究
扎西加
珠杰
《中文信息学报》
CSCD
北大核心
2009
18
下载PDF
职称材料
4
最大熵和规则相结合的藏文句子边界识别方法
李响
才藏太
姜文斌
吕雅娟
刘群
《中文信息学报》
CSCD
北大核心
2011
17
下载PDF
职称材料
5
回顾藏文信息处理技术的发展
高定国
关白
《西藏大学学报(社会科学版)》
2009
15
下载PDF
职称材料
6
藏文拉丁转写的研究与实现
陈丽娜
祁坤钰
贾彦民
吴健
康丽
《计算机工程与设计》
CSCD
北大核心
2006
13
下载PDF
职称材料
7
信息处理用藏文分词单位研究
关白
《中文信息学报》
CSCD
北大核心
2010
12
下载PDF
职称材料
8
基于词典的汉藏句子对齐研究与实现
于新
吴健
洪锦玲
《中文信息学报》
CSCD
北大核心
2011
10
下载PDF
职称材料
9
藏文文本自动校对系统开发研究
才让卓玛
才智杰
《西北民族大学学报(自然科学版)》
2009
10
下载PDF
职称材料
10
现代藏语助动词结尾句子边界识别方法
赵维纳
于新
刘汇丹
李琳
王磊
吴健
《中文信息学报》
CSCD
北大核心
2013
7
下载PDF
职称材料
11
汉藏短语对抽取中短语译文获取方法研究
诺明花
吴健
刘汇丹
丁治明
《中文信息学报》
CSCD
北大核心
2011
7
下载PDF
职称材料
12
藏文自动分词系统中虚词识别算法研究
拉巴顿珠
欧珠
赵栋材
《计算机应用与软件》
2017
8
下载PDF
职称材料
13
基于栏目的藏文网页文本自动分类方法
胥桂仙
向春丞
翁彧
赵小兵
杨国胜
《中文信息学报》
CSCD
北大核心
2011
7
下载PDF
职称材料
14
基于大规模网络语料的藏文音节拼写错误统计与分析
刘汇丹
洪锦玲
诺明花
吴健
《中文信息学报》
CSCD
北大核心
2017
6
下载PDF
职称材料
15
现代藏文字构件分解方法
才让卓玛
才智杰
《青海大学学报(自然科学版)》
2010
7
下载PDF
职称材料
16
藏文信息处理研究进展
高定国
《广西科学院学报》
2018
6
下载PDF
职称材料
17
汉藏短语抽取
诺明花
张立强
刘汇丹
吴健
丁治明
《中文信息学报》
CSCD
北大核心
2011
5
下载PDF
职称材料
18
Web藏文文本资源挖掘与利用研究
刘汇丹
诺明花
马龙龙
吴健
贺也平
《中文信息学报》
CSCD
北大核心
2015
6
下载PDF
职称材料
19
基于深度学习的藏文舆情分析研究
公保加羊
拉玛杰
官却多杰
索南多杰
《青海科技》
2023
0
下载PDF
职称材料
20
藏文自动分词中未登录词处理方法研究
羊毛卓玛
高定国
《计算机工程》
CAS
CSCD
2012
5
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
3
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部