期刊文献+
共找到184篇文章
< 1 2 10 >
每页显示 20 50 100
低频词表示增强的低资源神经机器翻译 被引量:5
1
作者 朱俊国 杨福岸 +2 位作者 余正涛 邹翔 张泽锋 《中文信息学报》 CSCD 北大核心 2022年第6期44-51,共8页
在神经机器翻译过程中,低频词是影响翻译模型性能的一个关键因素。由于低频词在数据集中出现次数较少,训练经常难以获得准确的低频词表示,该问题在低资源翻译中的影响更为突出。该文提出了一种低频词表示增强的低资源神经机器翻译方法... 在神经机器翻译过程中,低频词是影响翻译模型性能的一个关键因素。由于低频词在数据集中出现次数较少,训练经常难以获得准确的低频词表示,该问题在低资源翻译中的影响更为突出。该文提出了一种低频词表示增强的低资源神经机器翻译方法。该方法的核心思想是利用单语数据上下文信息来学习低频词的概率分布,并根据该分布重新计算低频词的词嵌入,然后在所得词嵌入的基础上重新训练Transformer模型,从而有效缓解低频词表示不准确问题。该文分别在汉越和汉蒙两个语言对四个方向上分别进行实验,实验结果表明,该文提出的方法相对于基线模型均有显著的性能提升。 展开更多
关键词 低频词表示 信息增强 低资源 神经机器翻译
下载PDF
M2CST-Mongo:面向新闻领域的蒙汉语音翻译数据集
2
作者 赵小兵 江雪 +2 位作者 刘佳洛 特尼格尔 戚肖克 《中国科学数据(中英文网络版)》 CSCD 2024年第4期1-9,共9页
数据集是训练和评估语音翻译系统的基础,对语音翻译激发创新研究,推动领域进步具有至关重要的作用。然而,目前蒙汉语音翻译语料相对稀缺,难以提供足够规模和多样性的数据支持翻译模型的训练,发展蒙汉语音翻译技术面临困境。为了缓解这... 数据集是训练和评估语音翻译系统的基础,对语音翻译激发创新研究,推动领域进步具有至关重要的作用。然而,目前蒙汉语音翻译语料相对稀缺,难以提供足够规模和多样性的数据支持翻译模型的训练,发展蒙汉语音翻译技术面临困境。为了缓解这一问题,本研究面向新闻领域构建了蒙汉语音翻译数据集。首先,参考既往语音翻译数据集研究思路,将公开的蒙古语语音识别数据集转换成语音翻译数据集。进行数据处理后交由专家评审检验,通过对本数据集的校正、分析,从而得到高质量的蒙汉语音翻译数据集。本数据集面向新闻领域,包括政治、经济、文化等话题,总时长为106.5小时,来自258个说话人,包含音频样本47,935条,文本包含蒙古语和汉语,大小为19.6 MB。数据集充分考虑到字母的平衡,保证数据的可用性。本数据集的建立为探索低资源蒙汉语音翻译提供了一定的数据基础,推动蒙汉语音翻译技术的发展,促进蒙汉文化交流。 展开更多
关键词 蒙汉语音翻译 新闻领域 低资源 数据集
下载PDF
中-蒙-藏-维文多文档摘要数据集
3
作者 翁彧 邢天娇 +3 位作者 叶旭明 刘征 超木日力格 刘轩 《中国科学数据(中英文网络版)》 CSCD 2024年第4期85-96,共12页
是自然语言处理中的一个关键任务,也是理解和处理大量文档中核心内容的关键技术。尽管目前英文和中文的多文档研究已取得显著进展,低资源语言相关研究却因数据不足而相对滞后。因此,本研究在构建中文多文档摘要数据集的基础上,采取机器... 是自然语言处理中的一个关键任务,也是理解和处理大量文档中核心内容的关键技术。尽管目前英文和中文的多文档研究已取得显著进展,低资源语言相关研究却因数据不足而相对滞后。因此,本研究在构建中文多文档摘要数据集的基础上,采取机器翻译加专家校对的方式构建了蒙文、藏文和维文对齐语料,组成了中文、蒙文、藏文和维文版本的面向多文档摘要生成的数据集MMDS。每种语言包含1044个新闻簇(6234篇新闻文章),覆盖2018至2023年间的重大新闻事件。此外,通过人工评价确保了数据集的高质量,使其更加适用于多语言的深度学习模型训练和NLP研究。本数据集的发布,对于促进低资源语言信息处理的发展具有重要的价值。 展开更多
关键词 多文档摘要 数据集 蒙文 藏文 维文 低资源
下载PDF
藏汉神经机器翻译研究综述
4
作者 仁青卓玛 《西藏科技》 2024年第2期76-80,共5页
让计算机进行自然语言翻译一直是人类长期追求的目标之一,同时也是人工智能的最终目标之一。近年来神经机器翻译是研究者最青睐的方法,但像藏汉机器翻译属于低资源语言上的翻译效果并不是很理想。文章回顾了机器翻译技术的发展历程并简... 让计算机进行自然语言翻译一直是人类长期追求的目标之一,同时也是人工智能的最终目标之一。近年来神经机器翻译是研究者最青睐的方法,但像藏汉机器翻译属于低资源语言上的翻译效果并不是很理想。文章回顾了机器翻译技术的发展历程并简述研究现状,接着对近几年的藏汉机器翻译方法进行了简要的介绍。 展开更多
关键词 藏汉神经机器翻译 低资源 数据增强
下载PDF
藏汉跨语言摘要数据集TiCLS
5
作者 欧阳新鹏 闫晓东 《中国科学数据(中英文网络版)》 CSCD 2024年第4期68-75,共8页
是自然语言处理领域中的重要研究方向,旨在源语言的文本上生成目标语言的摘要,帮助人们更好地理解和传播不同语言之间的信息。近年来,随着深度学习和预训练技术的发展,跨语言摘要任务在高资源语言数据上取得了显著的进展。然而藏文等低... 是自然语言处理领域中的重要研究方向,旨在源语言的文本上生成目标语言的摘要,帮助人们更好地理解和传播不同语言之间的信息。近年来,随着深度学习和预训练技术的发展,跨语言摘要任务在高资源语言数据上取得了显著的进展。然而藏文等低资源语言由于可用的数据稀少,藏汉跨语言摘要研究还处于起步阶段。为了推动藏汉跨语言摘要的研究,本研究构建了可用于藏汉跨语言摘要生成任务的数据集,共包含8000个样本,格式为json文件。在每个json文件中有2个键,其中text对应藏文源语言新闻内容,summary对应中文目标语言新闻摘要。本数据集爬取自藏文新闻网站,为保证数据质量,在爬取数据时,去除了通讯社、图片、视频、图片、视频名称描述、报道记者等无关内容,只留下新闻的正文内容,然后借助现有的较成熟的藏汉翻译工具将藏文源语言新闻摘要翻译成中文目标语言摘要。同时为了进一步提高数据集的质量,本研究从摘要的事实一致性、充分性、流畅性等方面对数据集质量进行了评估,经筛选后得到了8000条质量较高的样本。本数据集的发布对推动藏汉跨语言摘要的发展具有重要价值。 展开更多
关键词 藏汉跨语言摘要 藏文 低资源 数据集
下载PDF
基于深度神经网络的维语语音关键词检索 被引量:3
6
作者 张伟涛 米吉提·阿不里米提 +1 位作者 郑方 艾斯卡尔·艾木都拉 《计算机时代》 2021年第11期21-24,29,共5页
语音识别中的一个重要的分支就是关键词检索。虽然在英语上的关键词检索已经成熟,但是低资源的语音,比如维语的语音关键词检索研究缓慢,仍需要更深入的研究。文章在维吾尔语语数据集thuyg20上,先在GMM-HMM(Gaussian Mixture Model Hidde... 语音识别中的一个重要的分支就是关键词检索。虽然在英语上的关键词检索已经成熟,但是低资源的语音,比如维语的语音关键词检索研究缓慢,仍需要更深入的研究。文章在维吾尔语语数据集thuyg20上,先在GMM-HMM(Gaussian Mixture Model Hidden Markov Model)声学模型,DNN-HMM(Hidden Markov Model Deep Neural Network)声学模型,LSTM-HMM(Long Short-term Memory Hidden Markov Model)声学模型解码产生的网格lattice上捕捉关键词,将DNN-HMM和LSTM-HMM解码产生的网格进行融合,再在融合的网格lattice上进行关键词检索。实验结果表明,融合后的结果在准确率和召回率方面要优于DNN-HMM和LSTM-HMM模型的检索性能。 展开更多
关键词 维吾尔语 低资源 语音关键词检索 深度神经网络
下载PDF
基于元嵌入的跨语言词嵌入方法研究 被引量:1
7
作者 韩越 艾山·吾买尔 《现代计算机》 2021年第20期20-25,32,共7页
跨语言词嵌入在自然语言处理任务中扮演着重要角色。现流行的跨语言词嵌入方法都基于一个同构假设,该假设认为不同语言的词嵌入空间具有相似的结构。然而,该同构假设在远距离语言对以及低资源上面临着巨大挑战。对此,提出对不同设置下... 跨语言词嵌入在自然语言处理任务中扮演着重要角色。现流行的跨语言词嵌入方法都基于一个同构假设,该假设认为不同语言的词嵌入空间具有相似的结构。然而,该同构假设在远距离语言对以及低资源上面临着巨大挑战。对此,提出对不同设置下的词嵌入进行融合创建元嵌入的方法提高跨语言词嵌入的质量。在EN-ZH上的实验结果表明,提出的元嵌入方法在跨语言词嵌入上的有效性。 展开更多
关键词 跨语言词嵌入 元嵌入 低资源 同构假设
下载PDF
藏区农牧区扶贫与低保衔接的思考——以青海省泽库县为例 被引量:1
8
作者 李凤荣 《技术经济与管理研究》 2012年第8期116-120,共5页
农村扶贫开发与农村最低生活保障制度作为缓解农村贫困的两种手段,在遏制农村贫困现象,促进农村经济发展方面发挥着重要的作用。根据国务院扶贫办、民政部《关于开展农村最低生活保障制度与扶贫开发政策有效衔接试点工作的通知》精神,... 农村扶贫开发与农村最低生活保障制度作为缓解农村贫困的两种手段,在遏制农村贫困现象,促进农村经济发展方面发挥着重要的作用。根据国务院扶贫办、民政部《关于开展农村最低生活保障制度与扶贫开发政策有效衔接试点工作的通知》精神,泽库县被国务院扶贫办确定为农村最低生活保障制度和扶贫开发政策有效衔接试点。试点工作虽然取得了明显成效,积累了一些好的做法和经验,但仍存在牧民对两项制度衔接试点工作认识的偏差、家庭收入难以核实、缺乏有效的退出机制、现有低保标准低以及资金落实不到位等问题。针对上述问题本文提出了完善两项制度衔接应做好对农村低保、扶贫开发对象的动态管理,继续整合扶贫和民政低保资源,锁定交叉对象分步骤实施扶持项目,争取国家政策和资金支持等具体措施。 展开更多
关键词 农村低保 扶贫开发 低保资源 区域经济
下载PDF
基于潜层结构化语义增强的低资源摘要模型
9
作者 刘宇 刘小明 +2 位作者 刘卫光 杨关 刘杰 《计算机科学与探索》 CSCD 北大核心 2023年第8期1961-1973,共13页
生成任务通常采用数据增强或预训练结合微调的方式进行处理,对于源文本与目标摘要之间的潜层结构化语义信息未能充分利用。为此,提出一种基于潜层结构化语义增强的低资源摘要模型,以图结构对齐的方式增强模型对结构化信息的利用。首先,... 生成任务通常采用数据增强或预训练结合微调的方式进行处理,对于源文本与目标摘要之间的潜层结构化语义信息未能充分利用。为此,提出一种基于潜层结构化语义增强的低资源摘要模型,以图结构对齐的方式增强模型对结构化信息的利用。首先,该模型通过结构特征表示层获取源文本与预测摘要的潜层结构化语义特征。然后,将获得的语义特征利用潜层结构对齐模块进行节点对齐和边对齐,这种对齐有助于模型捕捉语义特征中的结构化信息,从而增强模型对结构化知识的利用。最后,利用源文本与预测摘要之间的结构化特征对齐距离作为目标损失的正则项来辅助模型进行优化。在六个领域的低资源数据集上进行实验,ROUGE-1分值相对于基线模型平均提高了0.58。结果表明利用潜层结构化语义知识可以有效提高低资源摘要生成的能力。 展开更多
关键词 低资源 结构化 语义特征 图结构
下载PDF
基于依存图网络的汉越神经机器翻译方法 被引量:1
10
作者 普浏清 余正涛 +2 位作者 文永华 高盛祥 刘奕洋 《中文信息学报》 CSCD 北大核心 2021年第12期68-75,共8页
汉越神经机器翻译是典型的低资源翻译任务,由于缺少大规模的平行语料,可能导致模型对双语句法差异学习不充分,翻译效果不佳。句法的依存关系对译文生成有一定的指导和约束作用,因此,该文提出一种基于依存图网络的汉越神经机器翻译方法... 汉越神经机器翻译是典型的低资源翻译任务,由于缺少大规模的平行语料,可能导致模型对双语句法差异学习不充分,翻译效果不佳。句法的依存关系对译文生成有一定的指导和约束作用,因此,该文提出一种基于依存图网络的汉越神经机器翻译方法。该方法利用依存句法关系构建依存图网络并融入神经机器翻译模型中,在Transformer模型框架下,引入一个图编码器,对源语言的依存结构图进行向量化编码,利用多头注意力机制,将向量化的依存图结构编码融入到序列编码中,在解码时利用该结构编码和序列编码一起指导模型解码生成译文。实验结果表明,在汉越翻译任务中,融入依存句法图可以提升翻译模型的性能。 展开更多
关键词 低资源 依存句法 依存图
下载PDF
融合词性位置的无监督老挝语实体关系抽取 被引量:1
11
作者 马霄飞 周兰江 周蕾越 《小型微型计算机系统》 CSCD 北大核心 2022年第11期2263-2270,共8页
老挝语属于低资源语言,在自然语言处理方面的研究较为薄弱,针对相对复杂的实体关系抽取技术暂时还没有相关研究.因此,该文通过研究老挝语的语言特点,提出了一种融合词性位置的无监督老挝语实体关系抽取方法.首先,通过爬虫技术在中国国... 老挝语属于低资源语言,在自然语言处理方面的研究较为薄弱,针对相对复杂的实体关系抽取技术暂时还没有相关研究.因此,该文通过研究老挝语的语言特点,提出了一种融合词性位置的无监督老挝语实体关系抽取方法.首先,通过爬虫技术在中国国际广播电台网(China Radio International,CRI)上爬取老挝语新闻3000篇,其次,对爬取的新闻文本进行预处理,包括分句,分词,命名实体识别以及词性标注;然后,使用融合了距离特征、TF-IDF特征和词性位置特征的词的分布式表示上下文特征,将其作为聚类模型的输入;之后,使用改进的KANN-DBSCAN聚类模型在预处理后的语料集上进行聚类试验;最后,采用优化的DCM方法对聚类结果进行关系标注,选出簇的关系标签,最终得到关系三元组.实验结果表明,该文提出的方法在低资源语言老挝语上达到了不错的效果,平均准确率达到了60.43%. 展开更多
关键词 低资源 关系抽取 词性位置 判别类型匹配 聚类模型
下载PDF
无证书纠错码身份认证方案
12
作者 韩牟 马世典 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2013年第10期1419-1423,共5页
针对基于数论问题的公钥身份认证方案在资源受限环境下难以使用,且在量子计算机时代不再安全的问题.利用纠错码理论,提出基于纠错码的无证书身份认证新方案.新方案的实现过程仅需异或运算,实现效率高;同时该方案不存在证书管理问题及密... 针对基于数论问题的公钥身份认证方案在资源受限环境下难以使用,且在量子计算机时代不再安全的问题.利用纠错码理论,提出基于纠错码的无证书身份认证新方案.新方案的实现过程仅需异或运算,实现效率高;同时该方案不存在证书管理问题及密钥托管问题.通过使用有限域Fq上的随机线性码,减少了密钥长度.研究结果表明:新方案能够较好的适用于智能卡等计算能力较小的终端设备.新方案的提出为基于纠错码的公钥密码体制的进一步实用化奠定了基础. 展开更多
关键词 量子计算机 资源受限 纠错码理论 无证书密码体制 身份认证 异或运算 随机线性码 智能卡
下载PDF
面向机器阅读理解的藏文数据集TibetanQA
13
作者 孙媛 旦正错 +1 位作者 刘思思 赵小兵 《中国科学数据(中英文网络版)》 CSCD 2022年第2期30-38,共9页
机器阅读理解是自然语言处理的关键任务,旨在考察机器是否具有理解自然语言的能力。目前,中英文领域的机器阅读理解取得了很大的进展,模型的性能已经超过了人类的水平,其中公开数据集起到了非常重要的作用,如斯坦福大学的SQuAD数据集。... 机器阅读理解是自然语言处理的关键任务,旨在考察机器是否具有理解自然语言的能力。目前,中英文领域的机器阅读理解取得了很大的进展,模型的性能已经超过了人类的水平,其中公开数据集起到了非常重要的作用,如斯坦福大学的SQuAD数据集。而对于低资源语言,如藏文,由于缺乏大规模公开的数据集,机器阅读理解的相关研究还处于起步阶段。因此,本文构建了面向藏文机器阅读理解的数据集,数据集包含631篇文章,903个段落,形式为excel文件。其中,第一列为当前文章ID,第二列为文本标题,第三列为段落,第四列为问题,第五列为问题对应的答案。其文本数据来自云藏网,问题和答案是由20位藏语专业人员进行人工录入和标注,类型涉及自然、文化、教育等12个领域。本数据集的发布,对于促进藏文信息处理的发展具有重要的价值。 展开更多
关键词 机器阅读理解 藏文 少数民族语言 低资源 数据集
下载PDF
Pelvic Organs Prolapse in Low-Resources Countries: Epidemiology, Risk Factors, Quality of Life. Narrative Review
14
作者 Eloge Ilunga-Mbaya Dénis Mukwege +3 位作者 Prosper Lukusa Tshilobo Kenny Raha Maroyi Rahma Rashid Tozin Dieudonné Sengeyi Mushengezi 《Open Journal of Urology》 2023年第7期238-250,共13页
Objective: Pelvic organ prolapse is an emerging public health problem affecting adult women of all ages with a negative impact on social, physical well-being, and psychological. Its presents several challenges in coun... Objective: Pelvic organ prolapse is an emerging public health problem affecting adult women of all ages with a negative impact on social, physical well-being, and psychological. Its presents several challenges in countries with low resources. This literature review aims to examine POP in its epidemiological aspects, risk factors, and staging by taking up the challenges associated with low-resource settings and identifying some avenues for future research. Methods: We searched the PubMed, Google Scholar, and Scopus databases. The other studies were identified by checking the secondary references in the original citation. We have collected studies on adult women published in English for the last 30 years. In total, 71 articles were read. We excluded studies from all newspaper articles, Studies presenting co-morbidities (fistulas, cervical cancer, pregnancy), those evaluating treatment, letters, comments, case reports, practice guidelines, news, historical articles, legal cases, published erratum, and congresses. Results: 16 studies examining the epidemiology have been identified with 11 in countries defined by the World Bank as limited or intermediate resources. 18 on risk factors whose 10 in countries with limited or intermediate resources, 10 on staging and 27 on physiopathology. Conclusion: POP affects the young more in low-resource settings. Its prevalence remains underestimated for several reasons. Several risk factors found are the same as those of women in countries with a high standard of living. However, there are some specific risk factors for these resource-limited settings. 展开更多
关键词 EPIDEMIOLOGY low resources-Countries Pelvic Organs Prolapse Risk Factors
下载PDF
Pregnancy in Coronavirus Disease (COVID-19) Pandemic: Clinical Opinion
15
作者 Laila Yahya A. Alhubaishi Atif Bashir Eltayeb Fazari 《Open Journal of Obstetrics and Gynecology》 2020年第5期708-713,共6页
Coronavirus disease (COVID-19) is an infectious disease caused by a newly discovered coronavirus. This novel coronavirus is called SARS-COV-2 and the disease that it causes is called COVID-19 causes serious respirator... Coronavirus disease (COVID-19) is an infectious disease caused by a newly discovered coronavirus. This novel coronavirus is called SARS-COV-2 and the disease that it causes is called COVID-19 causes serious respiratory morbidity and mortality. We aim to spot COVID-19 disease during pregnancy during this pandemic era. COVID-19 has various clinical presentations almost same in pregnant and non-pregnant victims. The hallmark for treatment is supportive management. Vertical transmission is probable but still not well confirmed and no evidence for virus in amniotic fluid, cord blood, neonatal throat swabs, placenta swabs, genital fluid and breastmilk samples from COVID-19 infected mothers. Research is running everywhere looking step ahead for actual treatment and vaccination. COVID-19 is newly emerged disease still not well explored in many aspects looking for soon definite treatment and vaccination for prevention to roll COVID-19. 展开更多
关键词 Coronavirus-COVID-19 PREGNANCY HYDROXYCHLOROQUINE MATERNAL MORBIDITY MATERNAL Mortality Neonatal Outcome TERATOGENICITY low resources Countries
下载PDF
聊城市农业“四低”资源改造利用研究
16
作者 董杰 《国土与自然资源研究》 1999年第4期26-28,共3页
从聊城市农业“四低”资源的现状和特点出发 ,探讨了农业“四低”资源的成因 ,并对其潜力进行了分析 ,并做出综合评价。
关键词 聊城市 “四低”资源 农业资源 资源利用
下载PDF
低资源语音识别若干关键技术研究进展 被引量:8
17
作者 刘加 张卫强 《数据采集与处理》 CSCD 北大核心 2017年第2期205-220,共16页
低资源语音识别是当今语音界研究的热点问题之一,也是多语言小语种语音识别技术在实际应用中所面临的重要挑战之一。本文回顾并总结了低资源语音识别的发展历史和研究现状,重点介绍了低资源语音识别在声学特征、声学模型和语言模型方面... 低资源语音识别是当今语音界研究的热点问题之一,也是多语言小语种语音识别技术在实际应用中所面临的重要挑战之一。本文回顾并总结了低资源语音识别的发展历史和研究现状,重点介绍了低资源语音识别在声学特征、声学模型和语言模型方面的若干关键技术研究进展。具体内容包括发音特征、多语言瓶颈特征、子空间高斯混合模型、卷积神经网络声学模型和递归神经网络语言模型,然后介绍了针对低资源语音识别的公开关键词搜索(Open keyword search,OpenKWS)评测,最后对低资源语音识别进行了总结和展望。 展开更多
关键词 语音识别 低资源 声学模型 语言模型
下载PDF
基于BN-SGMM-HMM模型的低资源语音识别系统 被引量:8
18
作者 雷杰 赵宏亮 +2 位作者 艾宁智 邹万冰 詹毅 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2021年第12期1627-1632,共6页
针对语音识别系统在低资源条件下,采用传统的高斯混合-隐马尔可夫声学模型(GMM-HMM)会带来识别精度低、参数规模过大等问题,文章提出基于BN-SGMM-HMM的声学模型来解决GMM-HMM模型的不足。该模型在声学特征方面,通过基于瓶颈(bottleneck,... 针对语音识别系统在低资源条件下,采用传统的高斯混合-隐马尔可夫声学模型(GMM-HMM)会带来识别精度低、参数规模过大等问题,文章提出基于BN-SGMM-HMM的声学模型来解决GMM-HMM模型的不足。该模型在声学特征方面,通过基于瓶颈(bottleneck,BN)层的神经网络来进行提取,从而提高声学特征的可区分性与鲁棒性,同时在训练过程中引入Dropout策略来防止过拟合问题;在声学模型方面,采用子空间高斯混合模型(subspace Gaussian mixture model,SGMM),使得模型参数规模显著降低56.5%。同时,这两方面的改进也提升了低资源语音识别系统的识别率,TIMIT语音数据库实验表明,采用该模型,与GMM-HMM模型相比提高8.0%,与BN-GMM-HMM模型相比提高3.6%。这些优点对该模型在低功耗需求的硬件平台上实现部署有极大的帮助。 展开更多
关键词 语音识别 瓶颈特征 子空间高斯混合模型(SGMM) Dropout策略 低资源
下载PDF
面向知识库问答的问句语义解析研究综述 被引量:5
19
作者 仇韫琦 王元卓 +3 位作者 白龙 尹芷仪 沈华伟 白硕 《电子学报》 EI CAS CSCD 北大核心 2022年第9期2242-2264,共23页
知识库问答(Knowledge Base Question Answering,KBQA)借助知识库中精度高、关联性强的结构化知识,为给定的复杂事实型问句提供准确、简短的答案.语义解析是知识库问答的主流方法之一,该类方法在给定的问句语义表征形式下,将非结构化的... 知识库问答(Knowledge Base Question Answering,KBQA)借助知识库中精度高、关联性强的结构化知识,为给定的复杂事实型问句提供准确、简短的答案.语义解析是知识库问答的主流方法之一,该类方法在给定的问句语义表征形式下,将非结构化的问句映射为结构化的语义表征,再将其改写为知识库查询获取答案.目前,面向知识库问答的语义解析方法主要面临三个挑战:首先是如何选择合适的语义表征形式以表达问句的语义,然后是如何解析问句的复杂语义并输出相应的语义表征,最后是如何应对特定领域中数据标注成本高昂、高质量数据匮乏的问题.本文从上述挑战出发,分析了知识库问答中常用的语义表征的特点与不足,然后梳理现有方法并总结分析其如何应对问句的复杂语义,接着介绍了当前方法在标注数据匮乏的低资源场景下的尝试,最后展望并讨论了面向知识库问答的语义解析的未来发展方向. 展开更多
关键词 知识库 问答 语义表征 语义解析 低资源
下载PDF
基于多头注意力机制的端到端土家语语音识别 被引量:5
20
作者 于重重 吴佳佳 +1 位作者 陈运兵 钱兆鹏 《计算机仿真》 北大核心 2022年第3期258-262,282,共6页
土家语是一种典型的濒危语言,因其母语人少、无文字、仅以口语形式存在等低资源性,很难典藏大量带标注的语音,导致其消亡速度日益加快,因此挽救和保护濒危语言迫在眉睫。针对上述问题,建立了一种基于多头注意力机制的端到端濒危语言语... 土家语是一种典型的濒危语言,因其母语人少、无文字、仅以口语形式存在等低资源性,很难典藏大量带标注的语音,导致其消亡速度日益加快,因此挽救和保护濒危语言迫在眉睫。针对上述问题,建立了一种基于多头注意力机制的端到端濒危语言语音识别模型。通过语音时域伸缩技术(time-scale-modification,TSM)改变土家语口语词汇语速对其进行扩充,有效解决了土家语语料不足的问题;建立基于注意力机制的端到端模型Listen,Attend,and Spell(LAS)实现土家语的自动语音识别功能;针对LAS模型中解码器状态向量与编码器状态向量对齐精度不高的问题,引入了多头注意力机制以提高模型的识别准确率。实验结果表明,多头注意力机制通过关注不同位置的空间信息能有效提升模型的表征能力,较传统注意力机制模型识别率提升了4.76%。 展开更多
关键词 濒危语言 低资源 语音识别 语音时域伸缩技术 多头注意力机制
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部