期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
面向国防科技领域的技术和术语识别方法研究 被引量:12
1
作者 冯鸾鸾 李军辉 +1 位作者 李培峰 朱巧明 《计算机科学》 CSCD 北大核心 2019年第12期231-236,共6页
随着自然语言处理技术的发展,人们越来越重视构建面向国防科技领域的知识图谱。而面向国防科技领域的技术和术语识别是构建该领域技术知识图谱的基础。文中基于该领域的语料库,在技术和术语识别的任务上,探索了子词单元在传统序列标注Bi... 随着自然语言处理技术的发展,人们越来越重视构建面向国防科技领域的知识图谱。而面向国防科技领域的技术和术语识别是构建该领域技术知识图谱的基础。文中基于该领域的语料库,在技术和术语识别的任务上,探索了子词单元在传统序列标注Bi-LSTM+CRF模型上的应用。此外,针对任务的特点,提出了适用于技术和术语识别的语言学特征。基于该领域的语料库,实验结果表明技术和术语识别的F1值达到了71.80%,较基准系统提升了3.04%,能够较好地识别出面向国防科技领域的技术和术语。同时,所提方法也优于基于BERT模型的技术术语识别方法。 展开更多
关键词 面向国防科技领域 技术和术语 子词 Bi-LSTM+CRF模型 语言学特征
下载PDF
基于Kinect的中国手语识别 被引量:5
2
作者 杨勇 叶梅树 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2013年第6期834-841,849,共9页
基于微软Kinect提取的深度图像信息,提出了一种新的中国手语识别方法。该方法首先利用Kinect获取人体主要骨骼的3D坐标和手的3D坐标;然后根据中国手语的手型、手的位置和手的方向3个主要构造成分,分别采用DBSCAN和K-means聚类算法获取... 基于微软Kinect提取的深度图像信息,提出了一种新的中国手语识别方法。该方法首先利用Kinect获取人体主要骨骼的3D坐标和手的3D坐标;然后根据中国手语的手型、手的位置和手的方向3个主要构造成分,分别采用DBSCAN和K-means聚类算法获取手语特征中的手的位置基元和方向基元,提出一种结合CLTree和Attribute bagging聚类集成方法提取手型基元;最后将这3类基元进行组合采用模板匹配方法识别中国手语。通过对选取的72个中国手语进行识别实验,平均识别率为90.35%,实验结果说明了方法的可行性。 展开更多
关键词 中国手语识别 基元 聚类 KINECT
原文传递
Binary Image Reconstruction Based on Prescribed Numerical Information 被引量:1
3
作者 K.G.Subramanian Pradeep Isawasan +1 位作者 Rahmat Budiarto Ibrahim Venkat 《Acta Mathematicae Applicatae Sinica》 SCIE CSCD 2015年第2期519-528,共10页
The problem of reconstruction of a binary image in the field of discrete tomography is a classic instance of seeking solution applying mathematical techniques. Here two such binary image reconstruction problems are co... The problem of reconstruction of a binary image in the field of discrete tomography is a classic instance of seeking solution applying mathematical techniques. Here two such binary image reconstruction problems are considered given some numerical information on the image. Algorithms are developed for solving these problems and correctness of the algorithms are discussed. 展开更多
关键词 discrete tomography and binary image and reconstruction and subwords and Parikh matrix
原文传递
补子字自由的无限字 被引量:1
4
作者 黄允宝 《杭州师范学院学报(自然科学版)》 CAS 2007年第1期1-5,共5页
研究满足下列条件的无限字w:如果x是w的子字,并且|x|至少取k(k是某个固定正整数),那么x的补字不是w的子字.给出了k≤4时所有这种无限字.
关键词 子字 补字 补子字 女补子字自由字
下载PDF
k补子字自由的无限字
5
作者 柯永桂 《杭州师范大学学报(自然科学版)》 CAS 2012年第1期43-46,共4页
设w是{0,1}上一个无限字,若x是w的子字,且|x|≥k(k为正整数),则x的补字x不是w的子字,那么称w是一个k补子字自由的无限字.文章给出了k补子字自由无限字的若干刻画.
关键词 完整子字 补字 补子字 k补子字自由字
下载PDF
关于逆序子字自由的无限字
6
作者 柯嘉 《杭州师范学院学报(自然科学版)》 2007年第6期406-409,共4页
用新方法给出了对k≤5时,Σ2上k逆序子字自由字的完整刻画,并且对5逆序子字自由无限字的刻画较文[1]中相应结果定理5更易于理解.同时,给出了Σ3上3逆序子字自由无限字的一个非常简洁的完整刻画.
关键词 子字 逆序子字 k逆序子字自由字
下载PDF
基于子词的双层CRFs中文分词 被引量:23
7
作者 黄德根 焦世斗 周惠巍 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期962-968,共7页
提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词... 提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词的跨越标记错误和增加子词识别的精确率;第2层利用CRFs模型学习基于子词的序列标注,对第1层的输出进行测试,进而得到分词结果.在2006年SIGHAN Bakeoff的中文简体语料上进行了测试,包括UPUC和MSRA语料,分别在F值上达到了93.3%和96.1%的精度.实验表明,基于子词的双层CRFs模型能够更加有效地利用子词来提高中文分词的精度. 展开更多
关键词 中文分词 条件随机场 双层条件随机场 子词 子词过滤
下载PDF
基于词根的中国手语识别方法 被引量:5
8
作者 王春立 高文 +1 位作者 马继勇 高秀娟 《计算机研究与发展》 EI CSCD 北大核心 2003年第2期150-156,共7页
迄今为止 ,手语识别面临的最大问题是如何解决词汇集易扩充的连续识别 提出一种大词汇量连续中国手语识别方法 ,将词根作为识别基元 ,由于基元的数目是有限的 ,因此基于HMM的手语信号的训练和识别变得比较容易处理 ,可以实现更大词汇... 迄今为止 ,手语识别面临的最大问题是如何解决词汇集易扩充的连续识别 提出一种大词汇量连续中国手语识别方法 ,将词根作为识别基元 ,由于基元的数目是有限的 ,因此基于HMM的手语信号的训练和识别变得比较容易处理 ,可以实现更大词汇量的识别 除此之外 ,所提方法还有利于实现手势语和手指语的混合识别 从中国手语中共整理出2 4 0 0多个词根 ,为每个词根建一个并行的HMM模型 ,对各数据流的HMM模型进行聚类 ,确定出手语识别的基元 根据这些基元对手势词编码 ,并建立了树状搜索网格 ,使用状态结点上高斯密度函数聚类、语言模型和N Best方法提高系统的速度和精度 对 5 119个手语词做了实验 ,连续语句的识别率可在 90 展开更多
关键词 词根 中国手语识别方法 HMM模型 图像处理 快速匹配算法 计算机 手语自动翻译系统
下载PDF
连续汉语音流中声韵母切分研究 被引量:1
9
作者 刘映杰 马义德 +2 位作者 刘悦 袁敏 段磊 《甘肃科学学报》 2005年第3期90-93,共4页
根据汉语语音的特点,提出了一种连续汉语语音中声韵母自动切分的新算法.根据音素单元结构确定HMM模型中的状态数,利用HMM模型进行音素切分,再对切分结果进行合并,得到最终的声韵母子词单元.通过实验验证了子词单元产生的稳定性和准确性... 根据汉语语音的特点,提出了一种连续汉语语音中声韵母自动切分的新算法.根据音素单元结构确定HMM模型中的状态数,利用HMM模型进行音素切分,再对切分结果进行合并,得到最终的声韵母子词单元.通过实验验证了子词单元产生的稳定性和准确性,实验结果表明,算法在这两方面均达到了较好的性能,且与话者无关. 展开更多
关键词 语音识别 子词 切分 HMM模型
下载PDF
Verbumculus and the Discovery of Unusual Words 被引量:1
10
作者 AlbertoApostolico Fang-ChengGong StefanoLonardi 《Journal of Computer Science & Technology》 SCIE EI CSCD 2004年第1期22-41,共20页
Measures relating word frequencies and expectations have been constantly ofinterest in Bioinformatics studies. With sequence data becoming massively available, exhaustiveenumeration of such measures have become concei... Measures relating word frequencies and expectations have been constantly ofinterest in Bioinformatics studies. With sequence data becoming massively available, exhaustiveenumeration of such measures have become conceivable, and yet pose significant computational burdeneven when limited to words of bounded maximum length. In addition, the display of the huge tablespossibly resulting from these counts poses practical problems of visualization and inference.VERBUMCULUS is a suite of software tools for the efficient and fast detection of over- orunder-represented words in nucleotide sequences. The inner core of VERBUMCULUS rests on subtlyinterwoven properties of statistics, pattern matching and combinatorics on words, that enable one tolimit drastically and a priori the set of over-or under-represented candidate words of all lengthsin a given sequence, thereby rendering it more feasible both to detect and visualize such words in afast and practically useful way. This paper is devoted to the description of the facility at theoutset and to report experimental results, ranging from simulations on synthetic data to thediscovery of regulatory elements on the upstream regions of a set of genes of the yeast. 展开更多
关键词 verbumculus unusual words subword statistics pattern discovery regulatoryelements suffix trees
原文传递
基于音节拼接的关键词识别系统 被引量:1
11
作者 石峰 秦敏 李治柱 《计算机工程》 CAS CSCD 北大核心 2004年第9期157-158,共2页
针对不确定的汉语语音关键词识别系统,为每个关键词分别建立模型是非常烦琐的,采用音节作为次词具有很好的灵活性。通过同传统的关键词识别系统作比较后发现用音节作为次词的系统具有相当高的识别率,其运算效率也非常高。
关键词 隐含马尔可夫模型 关键词识别 次词 音节拼接 汉语语音关键词识别系统
下载PDF
基于子词链的中文新闻广播故事自动分割 被引量:2
12
作者 杨玉莲 谢磊 《计算机应用研究》 CSCD 北大核心 2009年第2期583-586,594,共5页
提出了一种基于子词链的中文新闻广播故事自动分割方法。利用中文同音异形字众多、词典开放、分词多样和组词灵活等特点,在新闻广播的语音识别抄本上采用中文子词单元(汉字和音节)创建子词链,进行中文新闻广播故事的自动分割,有效地解... 提出了一种基于子词链的中文新闻广播故事自动分割方法。利用中文同音异形字众多、词典开放、分词多样和组词灵活等特点,在新闻广播的语音识别抄本上采用中文子词单元(汉字和音节)创建子词链,进行中文新闻广播故事的自动分割,有效地解决了在传统词链方法中由于语音识别错误(特别是词典未收录词汇)导致的相关联词之间无法匹配的问题。同时,利用各级词汇表示单元之间的互补性,如词的表义确定性和子词对语音识别错误的鲁棒性,对各级词汇进行融合,利用不同级别词汇表示单元的优势进一步提高中文新闻广播故事分割的性能。在TDT2中文标准新闻广播语料库上进行的实验表明,基于一元汉字子词链分割方法的F-mea-sure比传统词链方法提高了6.06%。基于一元和二元汉字子词链边界强度的融合可以使F-mea-sure进一步提高2.55%。基于投票法的融合可以使F-measure比传统词链方法提高9.04%。 展开更多
关键词 子词 词链 主题分割 故事分割 信息检索 语音文件检索
下载PDF
基于多任务学习的端到端维吾尔语语音识别 被引量:1
13
作者 苏比·艾依提 努尔麦麦提·尤鲁瓦斯 +1 位作者 黄浩 吾守尔·斯拉木 《信号处理》 CSCD 北大核心 2021年第10期1852-1859,共8页
维吾尔语是黏着语,词汇量较多,容易出现未登录词问题并且属于低资源语言,导致维吾尔语的端到端语音识别模型性能较低。针对上述问题,该文提出了基于多任务学习的端到端维吾尔语语音识别模型,在编码器层使用Conformer并与链接时序分类(C... 维吾尔语是黏着语,词汇量较多,容易出现未登录词问题并且属于低资源语言,导致维吾尔语的端到端语音识别模型性能较低。针对上述问题,该文提出了基于多任务学习的端到端维吾尔语语音识别模型,在编码器层使用Conformer并与链接时序分类(CTC)相连接,通过BPE-dropout方法形成鲁棒性更强的子词,以子词和字作为建模单元,同时进行多任务训练和解码。实验结果分析发现,子词作为建模单元能有效解决未登录词问题,多任务学习模型能在低资源环境下较充分利用数据,学习到丰富的时序语音特征信息,进一步提升模型的识别性能。在公开的维吾尔语语音数据集THUYG-20上与基线相比把子词错误率和字错误率分别降低7.3%和3.8%。 展开更多
关键词 CONFORMER 链接时序分类 多任务学习 子词 维吾尔语
下载PDF
关于弱自避免字的注记
14
作者 黄允宝 《杭州师范学院学报(自然科学版)》 2007年第6期401-405,共5页
文章将给出两个元素字母表上的极大弱自避免字的完整刻画,同时给出三个元素字母表Σ3上,满足条件:x1[1]=2,2-1x1∈Σ2ω的无限弱自避免字x1=20012010150130111017012301150…,其中(20)-1x1中0的位置由序列fn决定:f2n+1=52n-2(n≥0),f2n=... 文章将给出两个元素字母表上的极大弱自避免字的完整刻画,同时给出三个元素字母表Σ3上,满足条件:x1[1]=2,2-1x1∈Σ2ω的无限弱自避免字x1=20012010150130111017012301150…,其中(20)-1x1中0的位置由序列fn决定:f2n+1=52n-2(n≥0),f2n=82n-1-2(n≥1). 展开更多
关键词 子字 自避免字 弱自避免字 极大弱自避免字
下载PDF
面向双语教学的维吾尔语发音质量自动评估
15
作者 董滨 丁铭 +1 位作者 王磊 颜永红 《中国科学:信息科学》 CSCD 北大核心 2015年第10期1328-1340,共13页
推行新疆地区的双语教学是国家推进民族交流的重要举措,对维语进行自动发音质量评估能够大大提高双语教学的效率.然而维吾尔语作为黏着语,其特殊的构词方法造成大量无法被收入词表的集外词存在,使得基于传统语音识别系统的发音评估方法... 推行新疆地区的双语教学是国家推进民族交流的重要举措,对维语进行自动发音质量评估能够大大提高双语教学的效率.然而维吾尔语作为黏着语,其特殊的构词方法造成大量无法被收入词表的集外词存在,使得基于传统语音识别系统的发音评估方法难以应用.为了实现高效的维语发音质量评估,本文在研究分析了维语的发音规则和发音习惯后,决定采用子词作为基本的识别单元;在原有发音质量自动评估系统上,改用基于双层词法分析的维语子词切分器;同时引入音素解码器计算后验概率的分母,让系统可以在子词级别直接计算置信度.经过实验数据的验证,基于子词的维语评估系统的性能要优于基于音素的系统. 展开更多
关键词 双语教学 黏着语 发音评估 子词 后验概率 置信度
原文传递
基于子词的句子级别神经机器翻译的译文质量估计方法 被引量:13
16
作者 李培芸 翟煜锦 +4 位作者 项青宇 李茂西 裘白莲 罗文兵 王明文 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期159-166,共8页
目前性能最优的译文质量估计系统使用神经机器翻译中的编码器-解码器模型作为特征提取器.该方法由于限制词表大小易导致数据稀疏问题,从而使得较多的未登陆词不能被正确评价.为了缓解上述问题,在详细分析不同子词切分方法的特点后,提出... 目前性能最优的译文质量估计系统使用神经机器翻译中的编码器-解码器模型作为特征提取器.该方法由于限制词表大小易导致数据稀疏问题,从而使得较多的未登陆词不能被正确评价.为了缓解上述问题,在详细分析不同子词切分方法的特点后,提出了基于字节对编码(BPE)子词切分和基于一元文法语言模型子词切分的神经译文质量估计方法,并将两者的译文质量估计的得分与基于词语切分的神经译文质量估计得分融合后进行译文质量估计.在WMT18句子级别译文质量估计子任务数据集上的实验结果表明:融合BPE子词切分、一元文法语言模型子词切分和词语切分的神经译文质量估计方法的性能在多个评测子任务上超过了WMT18给出的最好参与系统,深入的实验分析进一步揭示了融合不同粒度的句子切分方法提高了译文质量估计的健壮性. 展开更多
关键词 质量估计 神经机器翻译 子词 编码器-解码器模型 循环神经网络 联合神经网络
下载PDF
一个对隐马尔可夫模型用于自由语句说话人的研究 被引量:2
17
作者 朱晓园 《北方交通大学学报》 CSCD 北大核心 1997年第1期34-38,共5页
研究了遍历型和从左到右型隐马尔可夫模型用于自由语句的说话人识别.本文作者与其合作者已在过去发表的研究成果中阐明,由于遍历型模型可自动将音素根据语音类分配到各状态上,所以这种模型很适用于自由语句的说话人识别.对于从左到... 研究了遍历型和从左到右型隐马尔可夫模型用于自由语句的说话人识别.本文作者与其合作者已在过去发表的研究成果中阐明,由于遍历型模型可自动将音素根据语音类分配到各状态上,所以这种模型很适用于自由语句的说话人识别.对于从左到右型模型,我们用了一个子字技术来适合自由语句实验.我们预计此方法会较遍历模型更好,因为它不仅能反映说话人的静态信息,而且还能反映语声动态信息.在对于美国《TIMIT》语声库中的40个人的实验中,遍历型模型和从左到右型模型的说话人识别率分别达到87.5%和100%. 展开更多
关键词 说话人识别 隐马氏模型 自由语句 语音识别
下载PDF
基于自注意力机制神经机器翻译的软件缺陷自动修复方法
18
作者 曹鹤玲 刘昱 韩栋 《电子学报》 EI CAS CSCD 北大核心 2024年第3期945-956,共12页
循环神经网络对于代码序列数据有着良好的处理能力,软件缺陷修复的补丁生成模型大多采用循环神经网络实现.然而,基于循环神经网络的补丁生成模型在处理代码序列中长距离依赖问题时仍然具有局限性,其修复成功率和修复效率较低.针对此问题... 循环神经网络对于代码序列数据有着良好的处理能力,软件缺陷修复的补丁生成模型大多采用循环神经网络实现.然而,基于循环神经网络的补丁生成模型在处理代码序列中长距离依赖问题时仍然具有局限性,其修复成功率和修复效率较低.针对此问题,提出一种基于自注意力神经机器翻译的软件缺陷自动修复方法(Self-attention Neural machine translation based automatic software Repair,SNRepair).首先,为有效缓解源码中的未登录词问题,对数据集引入子词切分技术进行预处理;其次,为解决源代码中棘手的长距离依赖问题并更充分地利用局部信息,构建融合局部建模的Transformer程序补丁生成模型;然后,采用缺陷自动定位技术定位缺陷语句位置,利用参数优化后的Transformer补丁生成模型生成候选补丁;最后,运行测试用例验证候选补丁.在具有395个真实Java软件缺陷的Defects4J缺陷库上实验评估,结果表明SNRepair方法与对比方法比较,修复成功率和修复效率更高. 展开更多
关键词 软件缺陷自动修复 神经机器翻译 自注意力机制 子词切分 局部建模
下载PDF
基于子字单元的维吾尔语语音识别研究 被引量:5
19
作者 薛化建 董兴华 +2 位作者 周喜 吐尔洪.吾司曼 李晓 《计算机工程》 CAS CSCD 北大核心 2011年第20期208-210,共3页
为提高维吾尔语语音识别的识别率,在分析维吾尔语特点的基础上,设计一种基于子字单元的维吾尔语语音识别总体结构,指出维吾尔语单词的发音模型,给出构建子字发音字典的方法,及其以子字单元为基础构建语言模型与声学模型的方法。在一个... 为提高维吾尔语语音识别的识别率,在分析维吾尔语特点的基础上,设计一种基于子字单元的维吾尔语语音识别总体结构,指出维吾尔语单词的发音模型,给出构建子字发音字典的方法,及其以子字单元为基础构建语言模型与声学模型的方法。在一个语音库上进行实验,采用一种非监督的词切分方法对维吾尔语单词进行词切分,生成子字。实验结果表明,基于子字单元的维吾尔语语音识别可以获得更好的识别结果。 展开更多
关键词 维吾尔语 词切分 子字单元 隐马尔科夫模型 连续语音识别
下载PDF
基于预训练与音素字节对编码的越南语识别 被引量:1
20
作者 沈之杰 郭武 《数据采集与处理》 CSCD 北大核心 2023年第1期101-110,共10页
基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC... 基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%。 展开更多
关键词 低资源语音识别 建模单元 字节对编码 音素子词 预训练 越南语识别
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部