藏医药抽取式机器阅读理解数据集研究

A Study on Reading Comprehension Dataset of Tibetan Medicine Extractive Machine

下载PDF

导出

摘要藏文机器阅读理解领域尚处于起步阶段,构建一份高质量的语料库成为推动该领域发展的当务之急。本研究采用众包方式,对藏医经典著作《四部医典》中的藏医植物药材与名词解释部分进行精细标注。结合藏文掩码数据扩充策略,有效扩充了数据集的规模,最终整理出13k条有效问答对。基于该数据集,通过优化传统的注意力机制,提出了一个高效的藏文机器阅读理解模型。文章的研究不仅对于推动藏文信息处理技术的深入发展具有重要意义,更有助于提升机器对藏文文本的理解能力,从而为藏文化的传承和保护提供有力支持。 The field of Tibetan machine reading comprehension is still in its infancy,and the construction of a highquality corpus has become an urgent task to promote the development of this field.This study adopted a crowdsourcing approach to finely annotate the Tibetan medical compilation and terminology explanations in the Tibetan medical classics,the"The Four Medical Tantras."Combined with the Tibetan masked data enrichment strategy,the scale of the dataset was effectively expanded,and finally 13,000 effective question-answer pairs were sorted out.Based on the dataset,an efficient model of Tibetan machine reading comprehension is proposed by optimizing the traditional attention mechanism.The research in this paper is not only of great significance for promoting the in-depth development of Tibetan information processing technology,but also helps to improvethe ability of machines to understand Tibetan texts,so as to provide strong support for the inheritance and protection of Tibetan culture.

作者旦增罗布拉巴次仁王浩畅小次仁 Danzeng Luobu;Laba Ciren;Wang Haochang;Xiao Ciren(Shannan Power Supply Co-mpany of State Grid Tibet Electric Power Company Limited,Lhoka 856000,China;University of Tibetan Medicine,Lhasa 850000,China;School of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,China)

机构地区国网西藏电力有限公司山南供电公司西藏藏医药大学东北石油大学计算机与信息技术学院

出处《西藏科技》 2024年第9期73-80,共8页 Xizang Science And Technology

基金 2023年藏医博士点建设及中藏药博士点培育科研资助计划项目(BSDJS-23-15) 国家自然科学基金(61402099)。

关键词藏文机器阅读理解四部医典藏文语料库注意力机制 Tibetan machine reading comprehension The Four Medical Tantras Tibetan corpus Attention mechanism

分类号 G250.74 [文化科学—图书馆学] H214 [语言文字—少数民族语言] R29 [医药卫生—民族医学]

引文网络
相关文献

参考文献6

1曲文闻,甄丽芳,孙慧超,孟海霞,崔鹿.藏医药学60年研究热点和趋势知识图谱可视化分析[J].世界中医药,2022,17(24):3506-3510. 被引量：2
2张燕,何星亮.近40年中国少数民族医学研究进展与前瞻[J].中南民族大学学报（人文社会科学版）,2020,40(3):68-77. 被引量：9
3德吉措姆.《四部医典》:从民族走向国际视野的藏医药百科全书[J].中国档案,2023(7):16-18. 被引量：2
4徐霄玲,郑建立,尹梓名.机器阅读理解的技术研究综述[J].小型微型计算机系统,2020,41(3):464-470. 被引量：6
5孙媛,刘思思,陈超凡,旦正错,赵小兵.面向机器阅读理解的高质量藏语数据集构建[J].中文信息学报,2024,38(3):56-64. 被引量：1
6刘思思..面向藏文机器阅读理解的问题生成研究[D].中央民族大学,2023:

二级参考文献88

1高艳菊,张丹.当代中国藏医药学主流学术群体及其代表人物[J].世界科学技术-中医药现代化,2020,22(8):2927-2935. 被引量：3
2柳森.藏族医学古籍文献举要[J].兰州学刊,2007(S1):106-107. 被引量：2
3罗艳秋,郑进,李玉娟.在中华民族发展整体性下的云南民族医药[J].云南中医学院学报,2006,29(S1):31-32. 被引量：2
4肖忠高.彝族传统文化与现代医学[J].西南民族大学学报（人文社会科学版）,1999,20(S3):18-19. 被引量：1
5苏超尘.藏族医圣宇妥·元丹贡布宁玛及其藏医学巨著《四部医典》[J].西南民族大学学报（人文社会科学版）,1985,6(1):25-33. 被引量：1
6黄颢.唐代汉地医学对藏族医学的影响[J].民族研究,1980(5):21-26. 被引量：6
7丹曲.简述藏医学名著《四部医典》及其影响[J].中央民族大学学报（哲学社会科学版）,1987,14(6):88-91. 被引量：5
8夏雷鸣.巫术与维吾尔族民间医学[J].喀什师范学院学报,1995(3):90-96. 被引量：2
9陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253. 被引量：7514
10愣本嘉.藏族医学与藏族天文历算之关系述略[J].中国民族医药杂志,1995,1(2):5-5. 被引量：2

共引文献15

1王建新,包海波,赵璇.西北地区医患关系研究的创新与实践——人类学前沿报告[J].西北民族研究,2021(2):150-160. 被引量：2
2严冬,张丽.云南中医药文化传承与发展[J].文化学刊,2021(3):6-9. 被引量：1
3龚安慧,杨昌贵,周斌.铜仁区域民族医药概况及其发展的机遇与挑战[J].产业创新研究,2021(18):79-81.
4曲文闻,甄丽芳,孙慧超,孟海霞,崔鹿.藏医药学60年研究热点和趋势知识图谱可视化分析[J].世界中医药,2022,17(24):3506-3510. 被引量：2
5仇亚进,奚雪峰,崔志明,盛胜利,周悦尧.多跳式机器阅读理解研究进展综述[J].计算机技术与发展,2023,33(2):9-16. 被引量：1
6张睿,陈羽中.一种增强机器阅读理解鲁棒性的上下文感知多任务学习框架[J].小型微型计算机系统,2023,44(7):1486-1493. 被引量：1
7温雪岩,谷训开,李祯,黄英来,黄鹤林.融合释义与双向交互的成语阅读理解方法研究[J].广西师范大学学报（自然科学版）,2023,41(6):70-79.
8韦伊.乡土医学的人类学分析——以侗族民族医学为例[J].文化创新比较研究,2024,8(3):92-96.
9龚安慧,冯祝婷,杨超,石建辉,刘利波,周斌.铜仁地区民族民间医药挖掘调查及保护对策研究[J].中国中医药现代远程教育,2024,22(11):82-85.
10王勇,陈秋怡,苗夺谦,杨宁创.一种多任务联合训练的机器阅读理解模型[J].小型微型计算机系统,2024,45(6):1398-1404.

1道吉扎西,尼玛扎西,才智杰,色差甲,仁青东主.藏文合并音节纠正算法[J].高原科学研究,2023,7(3):112-118.
2刘川,文建霞,董芹,邓科,杨文宇.“德-诵-明-彰”四位一体的《四部医典》课程思政教学模式探讨[J].中文科技期刊数据库（引文版）教育科学,2024(10):0026-0029.
3张洁.浅谈初中语文阅读教学中的有效提问策略分析[J].中文科技期刊数据库（全文版）教育科学,2021(1):341-341.
4马红菊.小学数学教师课堂提问有效性研究[J].中文科技期刊数据库（全文版）教育科学,2016(8):90-90.
5汪玉婷.优化课堂提问静待有效回答[J].语文教学之友,2023,42(6):23-25.
6王树林,洒玉萍,吴萍,普措多杰,扎西东主,张广梅,赵协慧,曹宁丽,徐超.青海省居民中藏医药利用程度及满意度调查[J].西部中医药,2024,37(9):72-77.
7班玛仲,安拉太,多德吉,郑萍萍,郭肖,李啟恩.基于数据挖掘的含藏药材榜嘎方剂组方及用药规律研究[J].中国民族民间医药,2024,33(8):14-19.
8阅读推广·四川地方出版物评介[J].四川图书馆学报,2024(4).
9才让吉,丹珍措,张艺,德洛,华尔江,孟宪丽.基于《四部医典》和临床医案的京尼萨克病(Ⅱ型糖尿病)尿诊特征知识发现研究[J].世界科学技术-中医药现代化,2024,26(3):758-768.
10边巴次仁,次旦平措,巴桑德吉,贡布,边巴顿珠,白玛拉宗,旦增央金,色珍,德吉白珍.藏医治疗便秘症方剂组方配伍规律研究[J].西藏科技,2024,46(9):66-72.

西藏科技

2024年第9期

浏览历史

内容加载中请稍等...

藏医药抽取式机器阅读理解数据集研究

参考文献6

二级参考文献88

共引文献15

相关作者

相关机构

相关主题

浏览历史