-
题名基于语义分割的藏文古籍文档文本区域检测
被引量:2
- 1
-
-
作者
贡去卓么
才让加
三知加
-
机构
青海师范大学计算机学院
青海省藏文信息处理与机器翻译重点实验室
青海省藏文信息处理工程技术研究中心
-
出处
《计算机仿真》
北大核心
2022年第5期448-454,共7页
-
基金
国家自然科学基金项目(61662061
61063033)
国家重点研发计划(2017YFB1402200)。
-
文摘
藏文古籍文档是中华民族宝贵的文化遗产,采用数字化处理技术对藏文古籍文档进行保护和传承具有重要的历史意义。针对藏文古籍文档文本区域检测提出了一种基于图像语义分割的方法。利用判别式对抗网络框架下的语义分割网络对藏文古籍文档不同类型的文本区域进行了像素分类;其次,根据像素分类结果提取了各个文本区域的轮廓;最后,将检测到的版面布局信息进行保存。最终实现藏文古籍文档的文本区域检测。通过拉萨版《甘珠尔》(藏文)的扫描页面构建了自定义的藏文古籍文档图像数据集,并在上述数据集上进行了实验。经实验表明,在上述数据集上得到了较好的检测效果,证明了上述方法的有效性。
-
关键词
藏文古籍文档
判别式对抗网络
语义分割
区域检测
版面分析
-
Keywords
Tibetan historical documents
Discriminative adversarial networks
Semantic segmentation
Region detection
Layout analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于结构属性的乌金体藏文古籍字符切分
被引量:2
- 2
-
-
作者
张策
王维兰
-
机构
西北民族大学中国民族语言文字信息技术教育部重点实验室
重庆第二师范学院数学与信息工程学院
-
出处
《激光与光电子学进展》
CSCD
北大核心
2021年第20期252-267,共16页
-
基金
国家自然科学基金(61772430)
国家民委创新团队计划((2018)98号)
+2 种基金
优秀研究生“创新之星”项目(2021CXZX-663)
重庆市教育委员会科学技术研究计划项目(KJQN202101608)
重庆第二师范学院校级科研项目(KY202118C)。
-
文摘
字符切分是藏文古籍文档图像分析与识别中重要的一环,针对乌金体藏文古籍文本行倾斜,字符之间笔画交叠、交叉、粘连以及不同程度的笔画断裂、噪声干扰等问题,提出了一种基于结构属性的乌金体藏文字符切分方法。首先,建立了乌金体藏文古籍字符区块库。然后,利用音节点位置信息或结合水平投影与直线检测的方法检测出字符区块的局部基线,并根据基线将字符区块切分为上下两部分;利用改进的模板匹配算法检测基线上方笔画的粘连及其类型,利用多方向、多路径粘连切分算法切分交叉、粘连笔画。最后,根据藏文结构属性对各笔画进行归属,完成字符切分。实验结果表明,本方法能有效解决字符切分中遇到的问题,字符切分的召回率、精确率以及F-Measure可分别达到96.52%、98.24%、97.37%。
-
关键词
图像处理
藏文古籍文档
字符区块
局部基线
粘连检测与切分
笔画归属
-
Keywords
image processing
historical Tibetan document
character block
local baseline
touching strokes detection and segmentation
strokes attribution
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名结合文字核心区域和扩展生长的藏文古籍文本行切分
被引量:3
- 3
-
-
作者
李金成
王筱娟
王维兰
林强
胡鹏飞
-
机构
西北民族大学中国民族语言文字信息技术教育部重点实验室
西北民族大学数学与计算机科学学院
-
出处
《激光与光电子学进展》
CSCD
北大核心
2021年第2期105-115,共11页
-
基金
国家自然科学基金(61772430)
国家民委创新团队计划(〔2018〕98号)
+2 种基金
甘肃省双一流学科建设项目(11080304)
甘肃省高等学校创新能力提升项目(2019B-024)
西北民族大学中央高校基本科研业务费项目(31920180050)。
-
文摘
藏文古籍文档图像中相邻文本行之间通常存在黏连和重叠的情况,这使得文本行切分成为一项艰巨的任务。因此,提出了一种结合文字核心区域和扩展生长的藏文古籍文档图像的行切分方法。首先,根据二值藏文古籍文档图像中连通域的面积和真圆度去除非音节点,获得音节点图像。其次,通过水平投影音节点图像和垂直投影二值原图,得到文本行基线所处的范围和文本行数,生成文字核心区域;通过像素值的或运算将文字核心区域和二值原图结合,得到伪文本连通区域。最后,基于广度优先搜索算法将文字核心区域扩展为伪文本连通区域,获得伪文本行连通区域,通过去掉其中的非文字区域来获得伪文本行,利用有效的断裂笔画行归属方法获得最终的文本行。实验结果表明,所提方法取得了较好的文本行切分结果,有效解决了文本行之间的重叠、部分行黏连以及笔画断裂等藏文古籍文本行切分的问题。
-
关键词
图像处理
藏文古籍文档图像
文本行切分
文字核心区域
扩展生长
-
Keywords
image processing
Tibetan historical document image
text line segmentation
text core region
expansion growth
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-