期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
SegT:一个实用的藏文分词系统 被引量:25
1
作者 刘汇丹 诺明花 +2 位作者 赵维纳 吴健 贺也平 《中文信息学报》 CSCD 北大核心 2012年第1期97-103,共7页
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,... 在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。 展开更多
关键词 藏文分词 格助词 临界词识别 词频统计 藏文信息处理 中文信息处理
下载PDF
藏语文-音自动规则转换及其实现 被引量:20
2
作者 李永宏 孔江平 于洪志 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第S1期621-626,共6页
为满足语言学、音韵学和工程语音学的需要,该文根据现代藏文与3大方言语音之间的对应规律和藏文正字法,提出了从文字上对藏文声母和韵母拆分的"字丁分解法",实现了藏文到各方言国际音标的自动转换。并对算法和实现过程进行了... 为满足语言学、音韵学和工程语音学的需要,该文根据现代藏文与3大方言语音之间的对应规律和藏文正字法,提出了从文字上对藏文声母和韵母拆分的"字丁分解法",实现了藏文到各方言国际音标的自动转换。并对算法和实现过程进行了详细的阐述,建立了藏语13个方言点的方音数据库。方音数据库的建立为藏语方言研究和语言教学提供了科学、方便的工具,为藏语标准音的制定、推广及应用提供原始的语音材料,也能作为藏语语音识别和语音合成的标音基础。 展开更多
关键词 藏文信息处理 藏语方言 国际音标 藏语文-音转换
原文传递
面向信息处理的藏文分词规范研究 被引量:18
3
作者 扎西加 珠杰 《中文信息学报》 CSCD 北大核心 2009年第4期113-117,123,共6页
自动分词是藏文信息处理领域的一项基础课题,也是智能化藏文信息处理的关键所在。在藏文信息处理"字词处理"层面上,需要解决词的切分问题,而词类划分的标准和词的正确切分是进行藏文文本处理的必要条件。为了便于计算机对自... 自动分词是藏文信息处理领域的一项基础课题,也是智能化藏文信息处理的关键所在。在藏文信息处理"字词处理"层面上,需要解决词的切分问题,而词类划分的标准和词的正确切分是进行藏文文本处理的必要条件。为了便于计算机对自动分词、词性标注的辨认,该文首先要确定满足藏文信息处理中词类的需求,并根据藏文自身的词汇特点与构词规律,提出了较为系统、适用的分词规范。 展开更多
关键词 计算机应用 中文信息处理 分词规范 藏文 信息处理
下载PDF
最大熵和规则相结合的藏文句子边界识别方法 被引量:17
4
作者 李响 才藏太 +2 位作者 姜文斌 吕雅娟 刘群 《中文信息学报》 CSCD 北大核心 2011年第4期39-44,共6页
句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利... 句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利用藏语句子边界规则减少了最大熵模型因训练语料稀疏或低劣而导致对句子边界的误判。实验表明,该文提出的方法具有较好的性能,F1值可达97.78%。 展开更多
关键词 最大熵 句子边界识别 藏文信息处理
下载PDF
回顾藏文信息处理技术的发展 被引量:15
5
作者 高定国 关白 《西藏大学学报(社会科学版)》 2009年第3期18-27,共10页
藏文有着悠久的历史,藏文字包含着丰富的信息。信息时代,对藏文的处理提出了新的研究课题——用计算机来处理藏文信息。八十年代中后期开始了藏文信息的研究工作,并且取得了较好的成绩。文章详细回顾了藏文的字处理、藏语自然语言处理... 藏文有着悠久的历史,藏文字包含着丰富的信息。信息时代,对藏文的处理提出了新的研究课题——用计算机来处理藏文信息。八十年代中后期开始了藏文信息的研究工作,并且取得了较好的成绩。文章详细回顾了藏文的字处理、藏语自然语言处理、藏文软件本地化以及藏文信息处理在应用领域中的研究。 展开更多
关键词 藏文 信息处理技术 本地化
下载PDF
藏文拉丁转写的研究与实现 被引量:13
6
作者 陈丽娜 祁坤钰 +2 位作者 贾彦民 吴健 康丽 《计算机工程与设计》 CSCD 北大核心 2006年第1期15-17,105,共4页
藏文拉丁转写是研究藏文化和进行藏文术语交流的重要工具。介绍了一种基于藏文编码字符集基本集和藏文编码字符集扩充集A,实现藏文拉丁转写的方法。通过引入垂直预组合的概念,将藏文由复杂文本变为简单文本,从而简化了拉丁转写的处理过... 藏文拉丁转写是研究藏文化和进行藏文术语交流的重要工具。介绍了一种基于藏文编码字符集基本集和藏文编码字符集扩充集A,实现藏文拉丁转写的方法。通过引入垂直预组合的概念,将藏文由复杂文本变为简单文本,从而简化了拉丁转写的处理过程,降低了算法复杂度。详细讲述了算法的原理及在OpenOffice.org中的实现。 展开更多
关键词 藏文 藏文信息处理 拉丁转写 垂直预组合
下载PDF
信息处理用藏文分词单位研究 被引量:12
7
作者 关白 《中文信息学报》 CSCD 北大核心 2010年第3期124-128,共5页
分词单位作为分词系统的基本单位,是研究分词理论的基础,要确立分词单位就必须有相应的理论体系。该文结合藏文已有的语法著作和汉语语义分类体系建立与分词单位相应的词类划分体系;参照《资讯处理用中文分词规范》和《信息处理用现代... 分词单位作为分词系统的基本单位,是研究分词理论的基础,要确立分词单位就必须有相应的理论体系。该文结合藏文已有的语法著作和汉语语义分类体系建立与分词单位相应的词类划分体系;参照《资讯处理用中文分词规范》和《信息处理用现代汉语分词规范》等标准,从藏文文本语料出发,建立切分分词单位的九项基本原则和三项辅助原则,以此词类划分体系和切分原则为理论依据对藏文的分词单位进行详细说明。 展开更多
关键词 计算机应用 中文信息处理 藏文分词 分词单位 信息处理 分词原则
下载PDF
基于词典的汉藏句子对齐研究与实现 被引量:10
8
作者 于新 吴健 洪锦玲 《中文信息学报》 CSCD 北大核心 2011年第4期57-62,共6页
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评... 双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。 展开更多
关键词 汉藏句子对齐 词典 分词粒度 平行语料库 藏文信息处理
下载PDF
藏文文本自动校对系统开发研究 被引量:10
9
作者 才让卓玛 才智杰 《西北民族大学学报(自然科学版)》 2009年第1期25-28,共4页
文本自动校对在自然语言处理领域中有着广阔的应用前景.文章通过比较分析国内外文本自动校对系统的发展现状,提出了设计现代藏文文本自动校对系统的两种方案,并就第二种方案研究了现代藏文文本自动校对系统的结构和功能设计.
关键词 藏文信息处理 自动校对系统 机器翻译 构件.
下载PDF
现代藏语助动词结尾句子边界识别方法 被引量:7
10
作者 赵维纳 于新 +3 位作者 刘汇丹 李琳 王磊 吴健 《中文信息学报》 CSCD 北大核心 2013年第1期115-119,共5页
藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特... 藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特点提出藏语助动词结尾句子边界识别方法。 展开更多
关键词 藏语分句 藏语句子边界识别 藏语信息处理 中文信息处理
下载PDF
汉藏短语对抽取中短语译文获取方法研究 被引量:7
11
作者 诺明花 吴健 +1 位作者 刘汇丹 丁治明 《中文信息学报》 CSCD 北大核心 2011年第3期112-117,共6页
该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)... 该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。 展开更多
关键词 藏文语块 短语译文获取 藏文信息处理 中文信息处理
下载PDF
藏文自动分词系统中虚词识别算法研究 被引量:8
12
作者 拉巴顿珠 欧珠 赵栋材 《计算机应用与软件》 2017年第9期299-301,333,共4页
在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算... 在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上。 展开更多
关键词 藏文自动分词 藏文信息处理 虚词识别 藏文虚词
下载PDF
基于栏目的藏文网页文本自动分类方法 被引量:7
13
作者 胥桂仙 向春丞 +2 位作者 翁彧 赵小兵 杨国胜 《中文信息学报》 CSCD 北大核心 2011年第4期20-23,共4页
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别... 该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。 展开更多
关键词 藏文信息处理 文本分类 藏文网页分类
下载PDF
基于大规模网络语料的藏文音节拼写错误统计与分析 被引量:6
14
作者 刘汇丹 洪锦玲 +1 位作者 诺明花 吴健 《中文信息学报》 CSCD 北大核心 2017年第2期61-70,共10页
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700... 针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。 展开更多
关键词 藏文拼写检查 拼写检查 语料 统计 藏文信息处理 中文信息处理
下载PDF
现代藏文字构件分解方法 被引量:7
15
作者 才让卓玛 才智杰 《青海大学学报(自然科学版)》 2010年第4期83-86,共4页
文中通过分析藏文文法,提出了自动分解现代藏文字构件的方法,其基本思想是:利用藏文文法将藏文字分解为基本构件和组合构件,并通过建立组合构件属性库进一步将组合构件分解为基本构件,同时确定出各基本构件的位置特征。
关键词 藏文信息处理 构件 前加字 后加字 又后加字
下载PDF
藏文信息处理研究进展 被引量:6
16
作者 高定国 《广西科学院学报》 2018年第1期1-11,共11页
藏文有着悠久的历史,是藏族人民交流思想的工具。1997年,藏文编码字符集国际、国家标准的制定作为藏文信息处理的开始,至今正好20年。这20年中藏文信息处理起步、发展,取得了较好的成绩。本文简要回顾了藏文信息处理中字、词、句、段、... 藏文有着悠久的历史,是藏族人民交流思想的工具。1997年,藏文编码字符集国际、国家标准的制定作为藏文信息处理的开始,至今正好20年。这20年中藏文信息处理起步、发展,取得了较好的成绩。本文简要回顾了藏文信息处理中字、词、句、段、篇的特点、处理方法及取得的典型成果,也回顾了藏语资源建设和应用研究取得的成果,并对藏文信息处理未来的发展方向进行展望。希望能为迈入藏文信息处理的初学者展示一个藏文信息处理发展的脉络,提供一个参考。 展开更多
关键词 藏文 信息处理 藏语资源
下载PDF
汉藏短语抽取 被引量:5
17
作者 诺明花 张立强 +2 位作者 刘汇丹 吴健 丁治明 《中文信息学报》 CSCD 北大核心 2011年第2期105-110,121,共7页
该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交... 该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交算法抽取藏文短语。该算法可以很好的抽取1-1和1-n连续和非连续藏文短语。 展开更多
关键词 汉藏短语抽取 藏文信息处理 中文信息处理
下载PDF
Web藏文文本资源挖掘与利用研究 被引量:6
18
作者 刘汇丹 诺明花 +2 位作者 马龙龙 吴健 贺也平 《中文信息学报》 CSCD 北大核心 2015年第1期170-177,共8页
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧... 该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。 展开更多
关键词 WEB 语料 文本挖掘 信息抽取 藏文信息处理 中文信息处理
下载PDF
基于深度学习的藏文舆情分析研究
19
作者 公保加羊 拉玛杰 +1 位作者 官却多杰 索南多杰 《青海科技》 2023年第1期56-60,共5页
随着自然语言处理技术的快速发展,藏文信息处理技术也取得了较大进展。其中,藏文舆情分析作为藏族地区社会舆情分析的重要技术,受到广泛关注。但是,现有的藏文文本情感分析研究由于起步较晚,还存在很大提升空间。本文提出基于深度集成... 随着自然语言处理技术的快速发展,藏文信息处理技术也取得了较大进展。其中,藏文舆情分析作为藏族地区社会舆情分析的重要技术,受到广泛关注。但是,现有的藏文文本情感分析研究由于起步较晚,还存在很大提升空间。本文提出基于深度集成学习的藏文文本情感分析算法。并通过建立藏文情感数据集进行实验,本文算法在三类情感(正向、负向、中性)中精确率平均提升1.65%,召回率提升1.63%,F1分数提升1.96%。实验结果表明,本文采用的深度集成学习有效地提高了文本情感分类的性能。 展开更多
关键词 藏文信息处理 藏文舆情分析 文本情感分析 深度集成学习 藏文情感数据集
下载PDF
藏文自动分词中未登录词处理方法研究 被引量:5
20
作者 羊毛卓玛 高定国 《计算机工程》 CAS CSCD 2012年第17期46-48,共3页
藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎... 藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎片切分现象,使用分词碎片整合方法,将多次出现的词条碎片整合为一个切分单位输出。实验结果表明,2种方法能提高藏文自动分词的识别正确率。 展开更多
关键词 藏文信息处理 词缀归并 未登录词 分词碎片整合
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部