期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
藏文编码字符集的扩充集在Linux上的实现 被引量:5
1
作者 张兴亮 芮建武 +2 位作者 谢谦 程伟 吴健 《中文信息学报》 CSCD 北大核心 2007年第2期122-128,共7页
国内藏文软件开发普遍使用的是基于垂直预组合字符的实现方案,但是缺乏统一的编码标准。藏文编码字符集扩充集的推出,对于国内藏文软件的标准化、国际化具有重要意义。本文通过分析ISO/IEC 10646藏文编码字符集基本集、藏文编码字符集... 国内藏文软件开发普遍使用的是基于垂直预组合字符的实现方案,但是缺乏统一的编码标准。藏文编码字符集扩充集的推出,对于国内藏文软件的标准化、国际化具有重要意义。本文通过分析ISO/IEC 10646藏文编码字符集基本集、藏文编码字符集扩充集国家标准,区分它们描述字丁的差异,分析由编码方案所导致的实现上的关键问题。最后,针对藏文扩充集B的特殊性,提出并实现了基于Linux国际化架构下支持藏文扩充集标准的解决方案。 展开更多
关键词 计算机应用 中文信息处理 藏文 扩充集OpenType 扩充QT方案
下载PDF
基于神经网络的多字体藏文印刷体字丁识别 被引量:2
2
作者 三知加 贡去卓么 +1 位作者 才让加 卓玛扎西 《计算机仿真》 北大核心 2022年第10期214-218,共5页
针对多字体藏文字丁数据集匮乏的现状和藏文印刷体多字体字丁的识别问题,构建了一个含有数据规模为48960张字丁图像的藏文印刷体字丁数据集(Tibetan Printed Character Dataset, TPCD),并对TPCD数据集进行了标记,归一化和二值化的预处... 针对多字体藏文字丁数据集匮乏的现状和藏文印刷体多字体字丁的识别问题,构建了一个含有数据规模为48960张字丁图像的藏文印刷体字丁数据集(Tibetan Printed Character Dataset, TPCD),并对TPCD数据集进行了标记,归一化和二值化的预处理。运用各类包括支持向量机、前馈神经网络和卷积网络等线性统计和深度学习方法对数据集中的藏文字丁进行了识别实验。对实验结果进行评测后,提出的基于神经网络的模型可以使多字体藏文印刷体识别任务在测试集上的识别率、召回率和F1值分别达到了97%、96.6%和96.6%,证实了上述方法的有效性,为后续藏文文字识别提供了一定的理论和研究的基础。 展开更多
关键词 藏文印刷体数据集 卷积神经网络 藏文 印刷体识别 藏文构件
下载PDF
基于Rcnn+Char_SegNet的藏文乌梅长文本识别
3
作者 才让当知 黄鹤鸣 +1 位作者 李鑫元 张会云 《中文信息学报》 CSCD 北大核心 2023年第12期62-69,75,共9页
藏文文字识别在藏文古籍文献、藏文办公自动化以及藏汉双语教育等领域具有非常重要的应用价值。作为两种常见的藏文字体之一,乌梅字体中笔画粘连和交错现象严重,导致识别难度较大。为此,该文提出了基于Rcnn+Char_SegNet的藏文乌梅长文... 藏文文字识别在藏文古籍文献、藏文办公自动化以及藏汉双语教育等领域具有非常重要的应用价值。作为两种常见的藏文字体之一,乌梅字体中笔画粘连和交错现象严重,导致识别难度较大。为此,该文提出了基于Rcnn+Char_SegNet的藏文乌梅长文本识别。首先,在CNN的每个卷积层中添加循环连接,增强CNN提取乌梅字粘连片段的特征和集成上下文信息的能力;其次,对提取的图像文本特征序列采用BiLSTM进行建模;最后,采用字丁切分模块增强CTC对图像序列和标签对齐的监督能力。在自行构建的Cursive Script-C517测试数据集上,该模型的最高准确率和平均准确率分别达到了99.80%和91.43%,分别比基线提高了1.45和48.47个百分点。此外,通过字符级词典库训练,使模型的训练时间减少了13.63%。实验表明,该方法有效解决了乌梅字体中笔画粘连和交错现象严重导致的识别错误问题,显著提升了印刷体藏文乌梅识别精度,减少了训练时间,且具有较好的鲁棒性。 展开更多
关键词 循环卷积神经网络 印刷体藏文识别 图像序列识别 印刷体藏文乌梅识别 藏文切分
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部