期刊文献+
共找到57篇文章
< 1 2 3 >
每页显示 20 50 100
基于多语言联合训练的汉-英-缅神经机器翻译方法 被引量:13
1
作者 满志博 +3 位作者 余正涛 李训宇 高盛祥 朱俊国 《清华大学学报(自然科学版)》 CSCD 北大核心 2021年第9期927-935,共9页
多语言神经机器翻译是解决低资源语言翻译的有效方法,现有方法通常依靠共享词表的方式解决英语、法语以及德语等相似语言之间的多语言翻译问题。缅甸语属于典型的低资源语言。汉语、英语以及缅甸语之间的语言结构差异较大。为了缓解由... 多语言神经机器翻译是解决低资源语言翻译的有效方法,现有方法通常依靠共享词表的方式解决英语、法语以及德语等相似语言之间的多语言翻译问题。缅甸语属于典型的低资源语言。汉语、英语以及缅甸语之间的语言结构差异较大。为了缓解由差异性引起的共享词表大小受限制问题,该文提出一种基于多语言联合训练的汉英缅神经机器翻译方法。在Transformer框架下将丰富的汉英平行语料与较少的汉缅、英缅语料进行联合训练,模型训练过程中分别在编码端和解码端将汉英缅映射在同一语义空间以降低汉英缅语言结构差异性对共享词表的影响,通过共享汉英语料训练参数来弥补汉缅、英缅语料缺失的问题。实验结果表明:在一对多、多对多的翻译场景下,所提方法的BLEU值比基线模型的汉英、英缅以及汉缅翻译结果有明显提升。 展开更多
关键词 汉语-英语-缅甸语 低资源语言 多语言神经机器翻译 联合训练 语义空间映射 共享参数
原文传递
基于BERT预训练语言模型的电网设备缺陷文本分类 被引量:13
2
作者 田园 原野 +2 位作者 刘海斌 满志博 《南京理工大学学报》 EI CAS CSCD 北大核心 2020年第4期446-453,共8页
电网设备缺陷部位识别是设备故障分析的关键环节。该文提出一种基于预训练语言模型双向Transformers偏码表示(Bidirectional encoder representation from transformers,BERT)的电网设备缺陷文本分类方法。基于BERT预训练语言模型对电... 电网设备缺陷部位识别是设备故障分析的关键环节。该文提出一种基于预训练语言模型双向Transformers偏码表示(Bidirectional encoder representation from transformers,BERT)的电网设备缺陷文本分类方法。基于BERT预训练语言模型对电网设备缺陷部位文本进行预训练生成具有上下文特征的词嵌入(Word embedding)向量作为模型输入,然后,利用双向长短时记忆(Bi-directional long short-term memory)网络对输入的电网设备缺陷文本向量进行双向编码提取表征缺陷文本的语义表征,并通过注意力机制增强电网设备缺陷文本中与缺陷部位相关的领域词汇的语义特征权重,进而得到有助于电网设备缺陷部位分类的语义特征向量。通过模型的归一化层实现电网设备缺陷部位文本分类。在主变压器、SF6真空断路器这两种设备缺陷文本数据集上实验结果表明,提出的方法比基于BiLSTM-Attention模型的F1值分别提升了2.77%和2.95%。 展开更多
关键词 电网设备 预训练语言模型 双向长短时记忆网络 双向Transformers偏码表示 注意力机制 缺陷部位 文本分类
下载PDF
基于深度神经网络的有色金属领域实体识别 被引量:12
3
作者 余正涛 +3 位作者 沈韬 高盛祥 郭剑毅 线岩团 《计算机研究与发展》 EI CSCD 北大核心 2015年第11期2451-2459,共9页
针对有色金属领域实体识别问题,提出一种基于深度神经网络(deep neural network,DNN)架构的有色金属领域实体识别方法.为能有效获取有色金属领域实体中字符间的紧密结合特征,并回避专业领域中文分词问题,使用神经网络的方法自动学习中... 针对有色金属领域实体识别问题,提出一种基于深度神经网络(deep neural network,DNN)架构的有色金属领域实体识别方法.为能有效获取有色金属领域实体中字符间的紧密结合特征,并回避专业领域中文分词问题,使用神经网络的方法自动学习中文字符embeddings向量化表示作为模型输入.基于降噪自动编码器(denoising autoencoder,DAE)对深度神经网络的每个隐层进行逐层预训练获取用于有色金属领域实体识别的最优特征向量组合,并详细介绍了基于神经语言模型的文本窗口降噪自动编码器预训练及有色金属实体识别的深层网络构建过程.为验证方法的有效性,对有色金属领域产品名、矿产名、地名、组织机构4类实体识别进行实验.实验结果表明,提出的方法对于专业领域的实体识别具有较好的效果. 展开更多
关键词 有色金属领域 深度神经网络 词汇embeddings 降噪自动编码器 实体识别
下载PDF
基于图的新闻事件主题句抽取方法 被引量:9
4
作者 王雍凯 +3 位作者 余正涛 郭剑毅 洪旭东 罗林 《南京理工大学学报》 EI CAS CSCD 北大核心 2016年第4期438-443,共6页
新闻事件主题句识别任务是一项基于文本内容进行语义分析的自然语言处理技术。为准确计算新闻事件文本中与新闻主题语义最相关的句子,提出一种基于图的新闻事件主题句抽取方法。首先利用描述事件特征的触发词及命名实体构建候选新闻事... 新闻事件主题句识别任务是一项基于文本内容进行语义分析的自然语言处理技术。为准确计算新闻事件文本中与新闻主题语义最相关的句子,提出一种基于图的新闻事件主题句抽取方法。首先利用描述事件特征的触发词及命名实体构建候选新闻事件句子抽取模板,然后,计算候选事件句之间的关联关系构建事件关系无向图,最后基于TextRank算法思想将图中任意顶点的权值表征为与其有关联的顶点权值的加权和,并按权值进行排序实现事件主题句抽取。实验结果表明,提出的方法优于基于TFIDF和基于标题的事件主题句抽取方法,F值分别提升了6.26%和2%。 展开更多
关键词 新闻事件 事件主题句 触发词 命名实体 事件关系 无向图 排序 抽取
下载PDF
基于扩散映射的太赫兹光谱识别 被引量:8
5
作者 倪家鹏 沈韬 +3 位作者 朱艳 李灵杰 余正涛 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2017年第8期2360-2364,共5页
特征提取对于太赫兹光谱识别来说至关重要。传统方法是通过人工选取太赫兹光谱中差异性较大的吸收峰作为特征进行光谱识别,但当部分物质在太赫兹波段没有明显波峰、波谷等光谱图形特征时,这种方式便不再适用。为此,研究人员利用统计学... 特征提取对于太赫兹光谱识别来说至关重要。传统方法是通过人工选取太赫兹光谱中差异性较大的吸收峰作为特征进行光谱识别,但当部分物质在太赫兹波段没有明显波峰、波谷等光谱图形特征时,这种方式便不再适用。为此,研究人员利用统计学习与机器学习方法对高维太赫兹光谱数据进行降维和特征提取。由于物质的太赫兹光谱数据各维度呈现非线性,尤其是当不同物质的太赫兹光谱曲线整体非常相似时,线性处理方法易产生较大误差。针对这一问题,提出了一种基于扩散映射(DM)的太赫兹光谱识别方法。扩散映射能在保持数据内在几何结构的同时对其进行非线性降维,提取的流形特征区分度较高,对数据还有聚类效果。首先用S-G滤波器对Alloxazine等10种物质的太赫兹光谱样本进行滤波,并用三次样条插值法对截取相同频段后的光谱样本进行统一分辨率处理;然后利用DM将高维太赫兹光谱数据映射到低维特征空间并提取太赫兹光谱的流形特征;最后用多分类支持向量机(M-SVM)对十种物质的太赫兹透射光谱进行分类。实验结果表明,相比于主成分分析(PCA)和等距映射(ISOMAP),使用DM提取的太赫兹光谱流形特征具有更高的区分度,而且DM可以直接得到太赫兹光谱数据本征维数的估计值,这为相似太赫兹光谱的快速精准识别提供了一条新的途径。 展开更多
关键词 太赫兹光谱 流形学习 谱方法 扩散映射 非线性降维
下载PDF
基于模式学习的中文问答系统答案抽取方法 被引量:7
6
作者 余正涛 +2 位作者 邓锦辉 章程 郭剑毅 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第1期142-147,共6页
答案抽取是中文问答系统的关键,而通常答案是借助于问题的答案句子模式抽取得到,由于答案句子模式是语言专家根据语言规则提炼获得,因此非常依赖于专家经验。针对这一局限性,提出了一种利用模式学习来获得中文答案句子模式的方法,该方... 答案抽取是中文问答系统的关键,而通常答案是借助于问题的答案句子模式抽取得到,由于答案句子模式是语言专家根据语言规则提炼获得,因此非常依赖于专家经验。针对这一局限性,提出了一种利用模式学习来获得中文答案句子模式的方法,该方法利用搜索引擎从互连网上检索相关问题文本,人工提取包含答案的句子段,并标注问题类型及答案,形成各种问题类型的问答训练语料。通过统计学习,提取候选答案句子模式,计算候选句子模式权重,并根据权重获得相应问题类型的答案句子模式。基于事实的问题答案抽取结果表明,提出的基于模式学习的方法有很好的效果,实验答案提取准确率值达到了0.28,学习方法获得的模式基本上覆盖了常规答案句子模式。 展开更多
关键词 计算机软件 问答系统 答案抽取 模式学习 模式匹配
下载PDF
受限域FAQ中文问答系统研究 被引量:6
7
作者 余正涛 邓锦辉 +3 位作者 韩露 郑志蕴 郭剑毅 《计算机研究与发展》 EI CSCD 北大核心 2007年第z2期388-393,共6页
在受限域中采用常问问题(FAQ)实现业务咨询系统是一种较好的问答模式,提出了一种受限域FAQ问答系统模型,借助于本体论的思想,构建了领域知识库,利用KDML语言定义和描述了领域本体及本体之间的关系,并实现了领域知识库"领域知网&qu... 在受限域中采用常问问题(FAQ)实现业务咨询系统是一种较好的问答模式,提出了一种受限域FAQ问答系统模型,借助于本体论的思想,构建了领域知识库,利用KDML语言定义和描述了领域本体及本体之间的关系,并实现了领域知识库"领域知网"与常识库"知网"的融合.在此基础上,提出了一种问句相似度的计算方法,该方法借助领域问句所具有的特点,结合问句中的词法关系、句法依存关系及领域概念关系,实现问句相似度计算.并以相似度计算为基础,从侯选问题集中检索相关问句,提取问题答案.云南旅游FAQ问答原型系统测试结果表明该方法可行,有较好的效果. 展开更多
关键词 受限域问答系统 常问问题库 领域本体库 问句相似度
下载PDF
目标导向的软件工程课程小组讨论式学习模式与实践 被引量:1
8
作者 姜瑛 王红斌 +2 位作者 丁家满 赖华 《软件导刊》 2023年第6期97-100,共4页
为提升学生学习能力与课程教学效果,基于软件工程的课程目标,探讨目标导向的软件工程课程小组讨论式学习模式,设计小组讨论式学习任务,并提出小组讨论式学习效果的综合评价体系。实践表明,该模式能较好地融合学生自主学习与小组讨论式学... 为提升学生学习能力与课程教学效果,基于软件工程的课程目标,探讨目标导向的软件工程课程小组讨论式学习模式,设计小组讨论式学习任务,并提出小组讨论式学习效果的综合评价体系。实践表明,该模式能较好地融合学生自主学习与小组讨论式学习,以期为其他院校进行小组讨论式学习提供参考与借鉴。 展开更多
关键词 软件工程 目标导向 小组讨论式学习 综合评价
下载PDF
以实践导向促进能力提升的软件工程课程教学探索 被引量:1
9
作者 姜瑛 王红斌 +1 位作者 丁家满 《软件导刊》 2023年第12期25-29,共5页
为了提升学生解决复杂工程问题的能力,基于软件工程的课程目标,以实践为导向,遵循工程教育认证标准,从混合式教学、翻转课堂、课程思政、学生学习能力培养、课程评价等方面进行系统化的课程建设。教学实践表明,所提方法能较好地提升课... 为了提升学生解决复杂工程问题的能力,基于软件工程的课程目标,以实践为导向,遵循工程教育认证标准,从混合式教学、翻转课堂、课程思政、学生学习能力培养、课程评价等方面进行系统化的课程建设。教学实践表明,所提方法能较好地提升课程的教学效果和教学质量。 展开更多
关键词 软件工程 实践导向 能力提升 混合式教学 课程评价
下载PDF
基于卷积神经网络的缅甸语分词方法 被引量:4
10
作者 林颂凯 +3 位作者 余正涛 郭剑毅 王红斌 张家富 《中文信息学报》 CSCD 北大核心 2018年第6期62-70,79,共10页
音节是缅甸语的最小构词单位。当前主流的基于统计的分词方法效果严重依赖于预先标注的训练样本集规模及人工方式选取特征的质量,然而,缅甸语属于稀缺资源语言,分词语料标注及特征选取面临较大困难。该文提出一种基于卷积神经网络的缅... 音节是缅甸语的最小构词单位。当前主流的基于统计的分词方法效果严重依赖于预先标注的训练样本集规模及人工方式选取特征的质量,然而,缅甸语属于稀缺资源语言,分词语料标注及特征选取面临较大困难。该文提出一种基于卷积神经网络的缅甸语分词方法,首先将缅甸语音节结构特征应用于缅甸语音节词向量特征分布式表示,然后基于卷积神经网络将音节及其上下文的特征进行融合,得到有效的特征表示,并通过深层网络的逐层特征优化自动学习到缅甸语分词的有效特征向量,最后利用softmax分类器来对构成缅甸语词汇的音节序列标记进行预测。实验结果表明,该方法取得了较好的效果。 展开更多
关键词 分词 缅甸语 卷积神经网络 巴克斯范式 词向量
下载PDF
核优化相关向量机太赫兹频谱特征提取方法 被引量:3
11
作者 钟毅伟 沈韬 +1 位作者 余正涛 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2016年第12期3857-3862,共6页
太赫兹频谱对分子非局域振动模式的变化较为敏感。因此,其波形容易受到多种理化因素的影响,会产生峰值改变、频移,甚至整体波形的变化,单一地从固定峰值特征与物质的对应关系上进行组分分析和物质鉴别容易产生较大误差甚至错误。针对此... 太赫兹频谱对分子非局域振动模式的变化较为敏感。因此,其波形容易受到多种理化因素的影响,会产生峰值改变、频移,甚至整体波形的变化,单一地从固定峰值特征与物质的对应关系上进行组分分析和物质鉴别容易产生较大误差甚至错误。针对此问题,提出区别于局部特征提取方法的基于核优化相关向量机(KO-RVM)的整体图形特征提取方法,并与支持向量回归算法(SVR)进行比较。结果表明,经过期望最大化算法进行基函数参数控制的RVM适用于太赫兹透射谱的特征提取,可对每种物质的光谱数据进行稀疏表示,控制提取图形特征的数量。利用已提取特征构造的模型能够还原频谱曲线的整体特征,对谱线各频段的拟合效果更加一致,同时所提取的特征还可作为不同物质间太赫兹光谱相似性度量和共同特征发现的依据。 展开更多
关键词 太赫兹频谱 特征提取 相关向量机 核函数优化
下载PDF
基于最大熵的泰语句子级实体从属关系抽取 被引量:2
12
作者 王红斌 李金绘 +2 位作者 沈强 线岩团 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第4期738-746,共9页
采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别... 采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别等成果,通过汉泰双语词典映射到与中文句子相对齐的泰语句子上,对泰语句子进行必要的数据处理操作,并进行一定量的人工校正和人工实体关系标注工作;进而构建基础的泰语实体关系训练语料库.在语料库的基础上,将泰语实体关系抽取问题转化为分类问题,同时结合泰语语言本身的特点,选取合适的上下文特征模板,使用最大熵模型算法对训练语料进行学习训练,构建分类器,对泰语句子中的候选实体关系三元组进行识别,最终达到实体间从属关系自动抽取的目的.实验结果显示该方法可使F值相对于已有的泰语实体关系抽取研究方法提升8%左右. 展开更多
关键词 实体关系 实体从属关系抽取 汉泰双语平行句对 最大熵模型 特征模板
下载PDF
Authorware中Flash动画播放控制的实现 被引量:2
13
作者 余正涛 +2 位作者 雷雄丽 吴烨 鲁东妮 《昆明冶金高等专科学校学报》 CAS 2006年第5期49-52,共4页
提出一种在Authorware中实现对F lash进行播放控制的新方法,该方法利用滑块及按钮相结合,实现对F lash动态播放控制,为用户提供了连续拖动控制F lash动画的控制操作,大大增强了对动画控制的方便性,提高了交互性,以实例制作方式详细介绍... 提出一种在Authorware中实现对F lash进行播放控制的新方法,该方法利用滑块及按钮相结合,实现对F lash动态播放控制,为用户提供了连续拖动控制F lash动画的控制操作,大大增强了对动画控制的方便性,提高了交互性,以实例制作方式详细介绍了这种方法的实现过程。 展开更多
关键词 AUTHORWARE FLASH 播放控制
下载PDF
ITD和自适应广义形态滤波的特征提取方法 被引量:1
14
作者 黄新奇 张亚飞 +3 位作者 黄刚劲 郭月江 杨红艳 《传感器与微系统》 CSCD 2018年第6期36-39,共4页
针对滚动轴承早期微弱故障特征难以从强噪声背景中分离的问题,提出了一种本征时间尺度分解(ITD)和自适应广义形态滤波的特征提取方法。将故障信号进行ITD分解成若干固有旋转(PR)分量;利用峭度准则选取若干PR分量进行重构,对重构后的信... 针对滚动轴承早期微弱故障特征难以从强噪声背景中分离的问题,提出了一种本征时间尺度分解(ITD)和自适应广义形态滤波的特征提取方法。将故障信号进行ITD分解成若干固有旋转(PR)分量;利用峭度准则选取若干PR分量进行重构,对重构后的信号通过自适应广义形态滤波进行降噪处理;对降噪后的信号进行Hilbert包络谱分析。通过对滚动轴承内外圈进行实验分析,验证了方法的有效性。 展开更多
关键词 本征时间尺度分解 峭度准则 自适应广义形态滤波 故障诊断
下载PDF
CET-4听力MCAI课件模块化实现技术研究
15
作者 《昆明冶金高等专科学校学报》 CAS 2003年第2期5-8,共4页
针对CET-4听力教学模式,利用多媒体开发工具Authorware开发大学英语四级听力MCAI课件, 并在开发过程中提出了一种模块化构建技术,详细介绍了这种设计方法的实现过程。这种技术减小了程序的代码编写量,提高了程序的开发效率。
关键词 多媒体课件 大学英语四级教学课件 模块化 CET-4 听力教学 CAI
下载PDF
专家证据文档识别无向图模型
16
作者 余正涛 +2 位作者 吴则建 郭剑毅 线岩团 《软件学报》 EI CSCD 北大核心 2013年第11期2734-2746,共13页
专家证据文档识别是专家检索的关键步骤.融合专家候选文档独立页面特征以及页面之间的关联关系,提出了一个专家证据文档识别无向图模型.该方法首先分析各类专家证据文档中的词、URL链接、专家元数据等独立页面特征以及候选专家证据文档... 专家证据文档识别是专家检索的关键步骤.融合专家候选文档独立页面特征以及页面之间的关联关系,提出了一个专家证据文档识别无向图模型.该方法首先分析各类专家证据文档中的词、URL链接、专家元数据等独立页面特征以及候选专家证据文档间的链接和内容等关联关系;然后将独立页面特征以及页面之间的关联关系融入到无向图中构建专家证据文档识别无向图模型;最后利用梯度下降方法学习模型中特征的权重,并利用吉布斯采样方法进行专家证据文档识别.通过对比实验验证了该方法的有效性.实验结果表明,该方法有较好的效果. 展开更多
关键词 专家证据文档 专家检索 独立页面特征 专家元数据 无向图模型
下载PDF
基于多核融合的中文领域实体关系抽取 被引量:19
17
作者 郭剑毅 陈鹏 +3 位作者 余正涛 线岩团 赵君 《中文信息学报》 CSCD 北大核心 2016年第1期24-29,共6页
针对传统径向基核函数的训练矩阵中所有元素都十分接近零而不利于分类的问题,该文提出了一种融合了改进的径向基核函数及其他核函数的多核融合中文领域实体关系抽取方法。利用径向基核函数的数学特性,提出一种改进的训练矩阵,使训练矩... 针对传统径向基核函数的训练矩阵中所有元素都十分接近零而不利于分类的问题,该文提出了一种融合了改进的径向基核函数及其他核函数的多核融合中文领域实体关系抽取方法。利用径向基核函数的数学特性,提出一种改进的训练矩阵,使训练矩阵中的向量离散化,并以此改进的径向基核函数融合多项式核函数及卷积树核函数,通过枚举的方式寻找最优的复合核函数参数,并以上述多核融合方法与支持向量机结合进行中文领域实体关系抽取。在旅游领域的语料上测试,相对于单一核方法及传统多核融合方法,关系抽取性能得到提高。 展开更多
关键词 关系抽取 径向基核函数 卷积核函数 多核融合
下载PDF
融入领域术语词典的司法舆情敏感信息识别 被引量:9
18
作者 张泽锋 +2 位作者 余正涛 黄于欣 刘奕洋 《中文信息学报》 CSCD 北大核心 2022年第9期76-83,92,共9页
司法舆情敏感信息识别主要是从海量网络文本中识别出与司法领域相关的敏感舆情。当前,面向司法舆情敏感信息识别的研究较少,相比通用领域的敏感信息识别任务,司法舆情敏感信息具有描述不规范、冗余信息多以及领域词汇过多等特点,这使得... 司法舆情敏感信息识别主要是从海量网络文本中识别出与司法领域相关的敏感舆情。当前,面向司法舆情敏感信息识别的研究较少,相比通用领域的敏感信息识别任务,司法舆情敏感信息具有描述不规范、冗余信息多以及领域词汇过多等特点,这使得通用模型并不适用该任务。为此,该文提出融入领域术语词典的司法舆情敏感信息识别模型。首先使用双向循环神经网络和多头注意力机制对舆情文本进行编码,得到具有权重信息的文本表示;其次将领域术语词典作为分类的指导知识,与舆情文本表征构建相似矩阵,得到融入领域术语词典的司法敏感文本表征;然后利用卷积神经网络对其进行局部信息编码,再利用多头注意力机制获取具有敏感权重的局部特征;最后实现司法领域敏感信息识别。实验结果表明,相比Bi-LSTM Attention基线模型,F_(1)值提升了8%。 展开更多
关键词 司法舆情 敏感信息 领域术语词典 多头注意力机制
下载PDF
基于主动学习的最小二乘支持向量机稀疏化 被引量:9
19
作者 余正涛 邹俊杰 +2 位作者 赵兴 苏磊 《南京理工大学学报》 EI CAS CSCD 北大核心 2012年第1期12-17,共6页
针对最小二乘支持向量机(LSSVM)稀疏化问题,提出一种基于主动学习的LSSVM数据稀疏化学习算法。首先基于核聚类的方法选取初始样本,并利用LSSVM构建一个最小分类器,然后计算样本在分类器作用下的分布,选择最接近分类面的样本进行标记,最... 针对最小二乘支持向量机(LSSVM)稀疏化问题,提出一种基于主动学习的LSSVM数据稀疏化学习算法。首先基于核聚类的方法选取初始样本,并利用LSSVM构建一个最小分类器,然后计算样本在分类器作用下的分布,选择最接近分类面的样本进行标记,最后将该标记样本加入训练集建立新的分类器,重复上述过程直到模型精度满足要求,以此建立部分样本的LSSVM稀疏化模型。利用加利福尼亚大学欧文分校(UCI)提供的6种数据集进行实验,结果表明,提出的方法使LSSVM的稀疏性提高了46%以上,减少了标注样本带来的成本。 展开更多
关键词 最小二乘支持向量机 稀疏化 主动学习 分类
下载PDF
基于同义词数据增强的汉越神经机器翻译方法 被引量:9
20
作者 尤丛丛 高盛祥 +2 位作者 余正涛 潘润海 《计算机工程与科学》 CSCD 北大核心 2021年第8期1497-1502,共6页
汉越平行语料库的资源稀缺,很大程度上影响了汉越机器翻译效果。数据增强是提升汉越机器翻译的有效途径,基于双语词典的词汇替换数据增强是当前较为流行的方法。由于汉语-越南语属于低资源语言对,双语词典难以获得,而通过单语词向量获... 汉越平行语料库的资源稀缺,很大程度上影响了汉越机器翻译效果。数据增强是提升汉越机器翻译的有效途径,基于双语词典的词汇替换数据增强是当前较为流行的方法。由于汉语-越南语属于低资源语言对,双语词典难以获得,而通过单语词向量获取低频词的同义词较为容易。因此,提出一种基于低频词的同义词替换的数据增强方法。该方法利用小规模的平行语料,首先通过对单语词向量的学习,获得一端语言低频词的同义词列表;然后对低频词进行同义词替换,再利用语言模型对替换后的句子进行筛选;最后将筛选后的句子与另一端语言中的句子进行匹配,获得扩展的平行语料。汉越翻译对比实验结果表明,提出的方法取得了很好的效果,扩展后的方法比基准和回译方法在BLEU值上分别提高了1.8和1.1。 展开更多
关键词 汉越 数据增强 同义词替换 神经机器翻译
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部