基于双向长短期记忆神经网络的老挝语分词方法被引量：17

A Lao word segmentation method based on bidirectional long-short term memory neural network model

下载PDF

导出

摘要作为语言最小独立运行且有意义的单位,将连续型的老挝语划分成词是非常有必要的。提出一种基于双向长短期记忆BLSTM神经网络模型的老挝语分词方法,使用包含913 487个词的人工分词语料来训练模型,将老挝语分词任务转化为基于音节的序列标注任务,即将老挝语音节标注为词首(B)、词中(M)、词尾(E)和单独成词(S)4个标签。首先将老挝语句子划分成音节并训练成向量,然后把这些向量作为BLSTM神经网络模型的输入来预估该音节所属标签,再使用序列推断算法确定其标签,最后使用人工标注的分词语料进行实验。实验表明,基于双向长短期记忆神经网络的老挝语分词方法在准确率上达到了87.48%,效果明显好于以往的分词方法。 It is necessary to divide the continuous Lao language into words,which are the smallest independent and meaningful unit of language.We propose a Lao word segmentation method based on bidirectional long-short term memory(BLSTM)neural network model.The model is trained from a Lao corpus that contains 913487 manually tagged words.In this model,the Lao word segmentation task can be transformed into a syllable-based sequential tagging task,in which a Lao syllable is labeled as four tags:begin-word(B),middle-word(M),end-word(E)and single-word(S).Firstly,Lao sentences are divided into syllables and the syllables are trained into vectors.Secondly,as the input of the BLSTM neural network model,these vectors are used to predict the label of the syllable.Thirdly,the sequence inference algorithm is used to determine the label of the syllable.We carry out experiments on the manually labeled word-segmentation corpus.Experimental results show that the proposal has an accuracy of 87.48%,which is obviously better than that of existing word segmentation methods.

作者何力周兰江周枫郭剑毅 HE Li;ZHOU Lan-jiang;ZHOU Feng;GUO Jian-yi(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)

机构地区昆明理工大学信息工程与自动化学院

出处《计算机工程与科学》 CSCD 北大核心 2019年第7期1312-1317,共6页 Computer Engineering & Science

基金国家自然科学基金(61662040,61562049)

关键词神经网络音节双向长短期记忆老挝语分词 neural network syllable bidirectional long-short term memory Lao word segmentation

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1杨蓓..老挝语分词和词性标注方法研究[D].昆明理工大学,2016:
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3张洪刚,李焕.基于双向长短时记忆模型的中文分词方法[J].华南理工大学学报（自然科学版）,2017,45(3):61-67. 被引量：12
4黄勇,覃海伦,波里·巴帕潘著..基础老挝语[M].北京/西安:世界图书出版公司,2013:209.

二级参考文献28

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999 被引量：1
3Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002 被引量：1
4S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002 被引量：1
5J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002 被引量：1
6Lawrence R Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proc of IEEE, 1989,77(2): 257～286 被引量：1
7Shai Fine, Yoram Singer, Naftali Tishby. The hierarchical hidden Markov model: Analysis and applications. Machine Learning,1998, 32(1): 41～62 被引量：1
8Richard Sproat, Thomas Emerson. The first international Chinese word segmentation bakeoff. The First SIGHAN Workshop Attached with the ACL2003, Sapporo, Japan, 2003. 133～143 被引量：1
9J Hockenmaier, C Brew. Error-driven learning of Chinese word segmentation. In: J Guo, K T Lua, J Xu, eds. The 12th Pacific Conf on Language and Information, Singapore, 1998 被引量：1
10Andi Wu, Zixin Jiang. Word segmentation in sentence analysis.1998 Int'l Conf on Chinese Information Processing, Beijing, 1998 被引量：1

共引文献208

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：10
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：10
3唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
4陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
5尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
6于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
7于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
8李彦,贾爱军,占向辉,李翔龙.面向创新设计的多层次Web信息检索研究[J].工程设计学报,2005,12(3):129-133. 被引量：1
9任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
10俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160

同被引文献129

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2王家乾,龚子寒,薛云,庞士冠,古东宏.基于混合多头注意力和胶囊网络的特定目标情感分析[J].中文信息学报,2020(5):100-110. 被引量：9
3刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：27
4车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：117
5黄晨,钱龙华,周国栋,朱巧明.基于卷积树核的无指导中文实体关系抽取研究[J].中文信息学报,2010,24(4):11-17. 被引量：12
6罗芳玲.汉语和老挝语主谓宾成分的特点及比较[J].出国与就业（就业教育）,2011(16):220-221. 被引量：3
7刘利俊.一种关键字过滤系统下的DFA分词算法设计与优化[J].计算机应用与软件,2012,29(1):284-287. 被引量：4
8卢晓娟.形态学国内外对比研究[J].外语与外语教学,2012(1):71-74. 被引量：4
9程传鹏,吴志刚.一种基于知网的句子相似度计算方法[J].计算机工程与科学,2012,34(2):172-175. 被引量：27
10翟延冬,王康平,张东娜,黄岚,周春光.一种基于WordNet的短文本语义相似性算法[J].电子学报,2012,40(3):617-620. 被引量：34

引证文献17

1贾晓霞.Lucene的网络资源索引信息动态检索系统设计[J].微型电脑应用,2021,37(1):55-58. 被引量：3
2邹德芳,胡秦斌.基于树到串模型强化的神经机器翻译模型构建[J].计算机仿真,2021,38(2):344-347. 被引量：3
3郝永彬,周兰江,刘畅.一种基于LSTM的端到端多任务老挝语分词方法[J].中文信息学报,2021,35(9):75-81.
4李炫达,周兰江,张建安.融合句子结构特征的汉老双语句子相似度计算方法[J].中文信息学报,2022,36(2):58-68.
5杨志婥琪,周兰江,周蕾越.融合文本特征的老挝语文字识别方法研究[J].小型微型计算机系统,2022,43(4):723-730.
6王艺皓,丁洪伟,王丽清,李波,李浩.基于决策树和DFA的老挝文敏感信息过滤算法[J].计算机应用与软件,2022,39(7):241-246. 被引量：4
7马霄飞,周兰江,周蕾越.融合词性位置的无监督老挝语实体关系抽取[J].小型微型计算机系统,2022,43(11):2263-2270. 被引量：1
8高慧星,杨蕊.改进ISA关系的网络本体语义相似度仿真[J].计算机仿真,2022,39(12):469-473.
9谭琪辉,周兰江,张建安.融合语义信息的汉老双语句子对齐方法[J].中文信息学报,2023,37(1):79-87. 被引量：2
10郭雷,周兰江,周蕾越.融合词语多特征的汉老短文本相似度计算[J].小型微型计算机系统,2023,44(4):759-765.

二级引证文献15

1杨璐,樊同科.基于递归神经网络的英译汉机器翻译模型设计与实现[J].计算机测量与控制,2021,29(11):142-147. 被引量：12
2张红玲.电子公文全文检索系统的设计及实现[J].微型电脑应用,2022,38(2):185-187.
3高剑.基于Lucene检索工具的科技查新检索方法设计[J].集成电路应用,2022,39(4):114-115.
4杨雪晴.基于语音识别的英语翻译器设计[J].自动化与仪器仪表,2022(8):221-225. 被引量：4
5陈婵娟.基于机器学习的图像敏感信息检测方法[J].信息与电脑,2023,35(6):85-87.
6姚亮,周晏.基于决策树算法的地灾数据可用性分类研究[J].信息技术与信息化,2023(6):44-47. 被引量：1
7袁健,董光文.多维特征融合的混合神经网络文本情感分析模型[J].小型微型计算机系统,2023,44(10):2137-2143. 被引量：4
8胡宇飞,谢莉.面向移动终端的异常用户信息资源整合仿真[J].计算机仿真,2023,40(7):472-476.
9吴树芳,杨强,侯晓舟,尹萌.基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究[J].情报杂志,2023,42(11):119-125. 被引量：4
10马功文.情境教学视角下多模态网络化英译技巧及模式研究[J].嘉应学院学报,2024,42(1):58-62.

1兰义湧,龙从军,赵小兵.基于条件随机场的藏文人名识别研究[J].中央民族大学学报（自然科学版）,2018,27(1):34-40. 被引量：2
2周海华,曹春萍.基于BLSTM-CRF的领域知识点实体识别技术[J].软件,2019,40(2):1-5.
3孙晓慧.含辅音连缀及成音节的单词[J].考试与评价（英语中考专刊）,2018,0(12):22-23.
4本刊有关文稿中关键词的要求[J].中华现代护理杂志,2019,25(13):1712-1712.
5王轶之.吴语绍兴方言成音节鼻音的变异研究[J].辞书研究,2019(3):75-95.
6孙天宇.试析网络新词“尬”的新义新用[J].纳税,2018,12(20):235-235. 被引量：1
7丁玮明.动词性同义语素构词能力差异及其语体特征[J].品位·经典,2018,0(1):27-34.
8龙从军,刘汇丹,吴健.藏语音节标注研究[J].中文信息学报,2017,31(4):89-93. 被引量：2
9姜晓芳.南方方言中成音节鼻音的分布和演变[J].常熟理工学院学报,2019,33(3):90-101.
10谷楠楠,冯筠,孙霞,赵妍,张蕾.中文简历自动解析及推荐算法[J].计算机工程与应用,2017,53(18):141-148. 被引量：6

计算机工程与科学

2019年第7期

浏览历史

内容加载中请稍等...

基于双向长短期记忆神经网络的老挝语分词方法被引量：17

参考文献4

二级参考文献28

共引文献208

同被引文献129

引证文献17

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于双向长短期记忆神经网络的老挝语分词方法 被引量：17

参考文献4

二级参考文献28

共引文献208

同被引文献129

引证文献17

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于双向长短期记忆神经网络的老挝语分词方法被引量：17