期刊文献+
共找到52篇文章
< 1 2 3 >
每页显示 20 50 100
基于CRF和半监督学习的维吾尔文命名实体识别 被引量:13
1
作者 王路路 艾山.吾买尔 +2 位作者 买合木提.买买提 卡哈尔江.阿比的热西提 吐尔根.依布拉音 《中文信息学报》 CSCD 北大核心 2018年第11期16-26,33,共12页
目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、... 目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。 展开更多
关键词 维吾尔文命名实体识别 条件随机场 半监督学习
下载PDF
基于深度神经网络的维吾尔文命名实体识别研究 被引量:10
2
作者 王路路 艾山.吾买尔 +2 位作者 吐尔根.依布拉音 买合木提.买买提 卡哈尔江.阿比的热西提 《中文信息学报》 CSCD 北大核心 2019年第3期64-70,共7页
现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量... 现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量模型获取每个单词具有语义信息的词向量;其次,利用Bi-LSTM提取单词的字符级向量;然后,利用直接串联法或注意力机制处理词向量和字符级向量,进一步获取联合向量表示;最后,用BiLSTM-CRF深度神经网络模型进行命名实体标注。实验结果表明,以基于注意力机制的联合向量表示作为输入的Bi-LSTM-CRF方法在维吾尔文命名实体识别上F值达到90.13%。 展开更多
关键词 维吾尔文命名实体识别 长短时记忆网络 条件随机场 注意力机制
下载PDF
移动群智感知中面向用户区域的分布式多任务分配方法 被引量:8
3
作者 韩俊樱 张振宇 孔德仕 《计算机应用》 CSCD 北大核心 2020年第2期358-362,共5页
多数群智感知(MCS)任务分配方法针对单个任务,难以适用于多任务实时并发的现实场景,而且往往需要实时获取用户位置,不利于保护参与者隐私。针对上述问题,提出了一种面向用户区域的分布式多任务分配方法Crowd-Cluster。该方法首先通过贪... 多数群智感知(MCS)任务分配方法针对单个任务,难以适用于多任务实时并发的现实场景,而且往往需要实时获取用户位置,不利于保护参与者隐私。针对上述问题,提出了一种面向用户区域的分布式多任务分配方法Crowd-Cluster。该方法首先通过贪心启发算法将全局感知任务及用户区域进行分簇;其次,基于空间关联性采用Q-learning算法将并发任务组合构成任务路径;接着,构建符合玻尔兹曼分布的用户意愿模型对任务路径进行动态定价;最后,基于历史信誉记录贪心优选参与者实现任务分配。基于真实数据集mobility的实验结果表明,Crowd-Cluster能有效减少参与者总人数及用户总移动距离,并且在低人群密度场景下,还能降低感知资源不足对任务完成度的影响。 展开更多
关键词 移动群智感知 多任务分配 任务组合 分布式计算 动态定价
下载PDF
基于改进Conformer的新闻领域端到端语音识别
4
作者 张济民 早克热·卡德尔 +2 位作者 艾山·吾买尔 申云飞 汪烈军 《中文信息学报》 CSCD 北大核心 2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进... 目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。 展开更多
关键词 端到端语音识别 CONFORMER 句子层级一致性
下载PDF
融合词性特征的中文句子相似度计算方法 被引量:6
5
作者 吴浩 艾山·吾买尔 +2 位作者 卡哈尔江·阿比的热西提 王路路 吐尔根·依布拉音 《计算机工程与设计》 北大核心 2020年第1期150-155,共6页
为解决近年来使用依存分析等语法信息计算句子相似度存在的手工标注代价较大、自动标注准确率低影响性能等问题,结合现有的句子相似度算法,提出两种方法融合词性特征计算句子相似度。在高精度的自动词性标注基础上,方法一通过词性信息... 为解决近年来使用依存分析等语法信息计算句子相似度存在的手工标注代价较大、自动标注准确率低影响性能等问题,结合现有的句子相似度算法,提出两种方法融合词性特征计算句子相似度。在高精度的自动词性标注基础上,方法一通过词性信息调整不同词性的单词对句子相似度的影响,方法二使用词性信息选择句子中较为关键的单词进行计算。对比实验中,方法一在实验任务中取得了最高的准确率,方法二具有较优的准确率和较快计算速度,实验结果表明了两种方法的有效性。 展开更多
关键词 句子相似度 词性 权重 词向量 语义
下载PDF
中亚语言自然语言处理综述 被引量:6
6
作者 吐尔根.依布拉音 卡哈尔江.阿比的热西提 +1 位作者 艾山.吾买尔 买合木提.买买提 《中文信息学报》 CSCD 北大核心 2018年第5期1-13,21,共14页
该文对中亚地区属于同一个语族的土耳其语、哈萨克语等诸语言的自然语言处理现状进行了综述。首先分别回顾土耳其语、哈萨克语和其他中亚语言在词法分析、句法分析、命名实体识别、机器翻译方面的研究进展,随后讨论了与具体语言无关的... 该文对中亚地区属于同一个语族的土耳其语、哈萨克语等诸语言的自然语言处理现状进行了综述。首先分别回顾土耳其语、哈萨克语和其他中亚语言在词法分析、句法分析、命名实体识别、机器翻译方面的研究进展,随后讨论了与具体语言无关的黏着语词法分析方面的研究情况,最后指出国内外中亚诸语言处理自然语言领域中所面临的问题和挑战,并对未来的研究提出了建议。 展开更多
关键词 土耳其语 哈萨克语 黏着语 形态复杂语
下载PDF
基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究 被引量:6
7
作者 古丽尼格尔·阿不都外力 吐尔根·依布拉音 +1 位作者 卡哈尔江·阿比的热西提 王路路 《中文信息学报》 CSCD 北大核心 2019年第8期60-66,共7页
词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi... 词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。 展开更多
关键词 维吾尔语 词干提取 Bi-LSTM-CRF
下载PDF
基于MHSA和GCN的方面级情感分析模型
8
作者 杨乾 艾山·吾买尔 +1 位作者 孙伟伟 古文霞 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第2期69-74,共6页
针对目前大多数现有的基于图卷积网络的模型只考虑了特定方面和上下文之间的交互关系,忽略了方面之间的交互情感特征的问题,本文提出了一种利用预训练BERT和多头自注意力机制(MHSA)结合图卷积网络的模型(MHSAGCN-BERT).用方面词与上下... 针对目前大多数现有的基于图卷积网络的模型只考虑了特定方面和上下文之间的交互关系,忽略了方面之间的交互情感特征的问题,本文提出了一种利用预训练BERT和多头自注意力机制(MHSA)结合图卷积网络的模型(MHSAGCN-BERT).用方面词与上下文的句法依赖和方面之间的相互情感关系来推导出特定方面的情感极性,以此增强模型学习特征能力.在Restaurant14、Restaurant15、Restaurant16公开数据集上进行了实验,结果表明,本文模型与其他方面级情感分析模型相比有较明显的提升. 展开更多
关键词 方面级情感分析 多头自注意力机制 图卷积网络 方面交互 句法依赖树
下载PDF
基于多亚词序列融合的神经机器翻译
9
作者 刘婉月 艾山·吾买尔 +3 位作者 李哲 韩越 张大任 宜年 《中文信息学报》 CSCD 北大核心 2023年第2期87-96,106,共11页
在神经机器翻译模型中,BPE(Byte Pair Encoding)方法用于解决模型不能正确翻译罕见词和不可见词的问题。但是BPE只能将单词切分成唯一的亚词序列,面对形态丰富的语言,同一个词存在多种不同的组合,但是模型只能学习单词的一种组合方式,... 在神经机器翻译模型中,BPE(Byte Pair Encoding)方法用于解决模型不能正确翻译罕见词和不可见词的问题。但是BPE只能将单词切分成唯一的亚词序列,面对形态丰富的语言,同一个词存在多种不同的组合,但是模型只能学习单词的一种组合方式,这会阻碍模型更好地学习单词的不同组合特性。该文提出一种加标签融合多种亚词序列的方法,不同BPE融合次数切分相同的训练数据,得到不同的亚词序列,进行加标签融合,其中相同单词的不同亚词参与训练,使模型能够更好地学习词的不同的组合形式。该文中的方法在形态复杂的语言和形态简单的语言对上均有了0.5个BLEU值以上的提高。实验表明,不同的亚词序列质量越好,相似度越低,融合后训练的翻译模型质量越好。 展开更多
关键词 BPE 亚词序列 加标签融合
下载PDF
基于条件随机场的维吾尔文机构名识别 被引量:5
10
作者 买合木提.买买提 王路路 +2 位作者 吐尔根.依布拉音 艾山.吾买尔 卡哈尔江.阿比的热西提 《计算机工程与设计》 北大核心 2019年第1期273-278,共6页
为缓解目前维吾尔文机构名识别方法依赖于人工编写规则、识别效率低的问题,提出一种基于条件随机场模型(CRF)的维吾尔文机构名识别方法。根据维吾尔语的语言特性,结合词、词性、音节、机构名特征词表、地名词表等特征,实现维吾尔文机构... 为缓解目前维吾尔文机构名识别方法依赖于人工编写规则、识别效率低的问题,提出一种基于条件随机场模型(CRF)的维吾尔文机构名识别方法。根据维吾尔语的语言特性,结合词、词性、音节、机构名特征词表、地名词表等特征,实现维吾尔文机构名识别。实验结果表明,相比于基于规则的方法和隐马尔科夫模型(HMM),该方法不依赖于人工编写规则,识别的准确率和召回率较高。 展开更多
关键词 命名实体 机构名识别 维吾尔语 条件随机场 黏着语
下载PDF
维哈柯及蒙语多文种语言相似性考查研究 被引量:5
11
作者 王玲 达瓦.伊德木草 吾守尔.斯拉木 《中文信息学报》 CSCD 北大核心 2013年第6期180-186,共7页
该文以阿勒泰语系下的维哈柯及蒙古语多语言平行文本和语音语料为研究对象,分别对比多语言文本量化序列向量及语音声学音律特征的相似度,研究语言信息间存在的相通性。试验发现,同语系同语族黏着语言相似度较高:文本相似性达85%;声频特... 该文以阿勒泰语系下的维哈柯及蒙古语多语言平行文本和语音语料为研究对象,分别对比多语言文本量化序列向量及语音声学音律特征的相似度,研究语言信息间存在的相通性。试验发现,同语系同语族黏着语言相似度较高:文本相似性达85%;声频特征相似性达95%。从而确认在同语系多种黏着语言间创建语言信息共享云模的可行性,这将有利于实现语言文本及语音信息的跨语言转换处理,极大降低少数民族语言信息处理成本。 展开更多
关键词 同语系同语族语言 平行语料 声学音律特征 基频F0 相似性考查
下载PDF
高并发汉英信息抽取系统的设计与实现 被引量:4
12
作者 张少迪 艾山·吾买尔 +1 位作者 郑炅 石刚 《现代电子技术》 北大核心 2019年第16期104-107,111,共5页
随着大数据时代的来临,如何从海量数据中抽取出最有效的信息成为人们最迫切的需要。为了能够在大数据的环境下更好更快地进行汉英文本的信息抽取,文中采用Python编程语言,Django+uWSGI+Nginx框架,基于TextRank的图排序算法实现汉英文本... 随着大数据时代的来临,如何从海量数据中抽取出最有效的信息成为人们最迫切的需要。为了能够在大数据的环境下更好更快地进行汉英文本的信息抽取,文中采用Python编程语言,Django+uWSGI+Nginx框架,基于TextRank的图排序算法实现汉英文本信息抽取系统。该系统包含文本关键词提取,文本关键短语提取以及文本摘要提取。测试结果表明,该系统能够实现大规模数据的高并发稳定调用,在兼顾抽取质量的同时,还能实现超高效率的信息抽取,具有很好的实际应用价值。 展开更多
关键词 大数据 高并发 信息抽取 TextRank uWSGI NGINX DJANGO
下载PDF
采用CRF模型的哈萨克语信息技术术语自动抽取技术研究 被引量:3
13
作者 木合亚提.尼亚孜别克 古力沙吾利.塔里甫 达吾勒.阿布都哈依尔 《西北师范大学学报(自然科学版)》 CAS 北大核心 2016年第1期53-56,共4页
研究哈萨克语信息技术术语自动识别方法.采用基于条件随机场(CRF)的方法,针对哈萨克语信息技术术语的组成形式、定界规则等术语自动识别标注问题,结合哈萨克语本身词性、词边界、术语类别标注的特征,分析不同特征组合对术语识别的影响,... 研究哈萨克语信息技术术语自动识别方法.采用基于条件随机场(CRF)的方法,针对哈萨克语信息技术术语的组成形式、定界规则等术语自动识别标注问题,结合哈萨克语本身词性、词边界、术语类别标注的特征,分析不同特征组合对术语识别的影响,并探讨最有效的组合.结果表明,CRF模型正确识别率为83.08%,召回率为80.13%,F值为80.57%. 展开更多
关键词 哈萨克语 信息技术 术语抽取 条件随机场
下载PDF
带标记音节的双向维汉神经机器翻译方法 被引量:3
14
作者 艾山·吾买尔 斯拉吉艾合麦提·如则麦麦提 +4 位作者 西热艾力·海热拉 刘文其 吐尔根·依布拉音 汪烈军 瓦依提·阿不力孜 《计算机工程与应用》 CSCD 北大核心 2021年第4期161-168,共8页
近年来,基于神经网络的机器翻译成为机器翻译领域的主流方法,但是在低资源翻译领域中仍存在平行语料不足和数据稀疏的挑战。针对维-汉平行语料不足和维吾尔语形态复杂所导致的数据稀疏问题,从维吾尔语的音节特点出发,将单词切分成音节,... 近年来,基于神经网络的机器翻译成为机器翻译领域的主流方法,但是在低资源翻译领域中仍存在平行语料不足和数据稀疏的挑战。针对维-汉平行语料不足和维吾尔语形态复杂所导致的数据稀疏问题,从维吾尔语的音节特点出发,将单词切分成音节,同时融入BME(Begin,Middle,End)标记思想,提出一种基于带标记音节的神经网络机器翻译方法。与使用单词粒度和BPE粒度的两类神经网络机器翻译方法对比,该方法在维-汉机器翻译任务中分别提升7.39与3.04个BLEU值,在汉-维机器翻译任务中分别提升5.82与3.09个BLEU值,可见在平行语料不足的条件下,该方法有效地提升了维-汉机器翻译的质量。 展开更多
关键词 神经机器翻译 数据稀疏 音节粒度 维汉神经机器翻译
下载PDF
基于CNN与Transformer混合结构的多语言图像标题生成研究 被引量:2
15
作者 张大任 艾山·吾买尔 +2 位作者 宜年 刘婉月 韩越 《东北师大学报(自然科学版)》 CAS 北大核心 2022年第2期68-75,共8页
针对现有图像标题生成模型在非英语语言中质量不高且仅能实现单一语言图像标题生成的问题,提出基于CNN与Transformer混合结构的多语言图像标题生成模型.首先利用CNN提取图像特征作为Transformer模型的编码端输入,然后解码端的输入为添... 针对现有图像标题生成模型在非英语语言中质量不高且仅能实现单一语言图像标题生成的问题,提出基于CNN与Transformer混合结构的多语言图像标题生成模型.首先利用CNN提取图像特征作为Transformer模型的编码端输入,然后解码端的输入为添加语言标签、进行分词与拉丁化处理后的6种语言,训练时将不同语言的损失和作为优化目标,最终实现不同语言间的联合训练.以Flickr8K数据集为基础,拓展了包含6种语言的多语言图像标题生成数据集,并在该数据集上进行了验证.结果表明:该模型可以同时生成多种语言的图像标题,且生成质量比相同规模的单语言模型质量高,并验证了该方法的有效性. 展开更多
关键词 多语言 深度学习 TRANSFORMER 联合训练 图像标题生成
下载PDF
基于Django的汉维人名在线翻译系统 被引量:3
16
作者 西热艾力·海热拉 艾山·吾买尔 王路路 《现代计算机》 2020年第18期19-22,32,共5页
人名是文本中表达关键信息的部分,机器翻译系统在人名翻译上的表现对翻译质量具有重要影响。人名翻译作为命名实体翻译的重要部分,具有重要的研究意义。设计与实现基于Django的汉语-维吾尔语人名自动翻译网络服务接口,供机器翻译、关键... 人名是文本中表达关键信息的部分,机器翻译系统在人名翻译上的表现对翻译质量具有重要影响。人名翻译作为命名实体翻译的重要部分,具有重要的研究意义。设计与实现基于Django的汉语-维吾尔语人名自动翻译网络服务接口,供机器翻译、关键词翻译等系统使用。采用TensorFlow框架搭建翻译模型并实现Django Web服务接口。实验结果显示,该翻译模型的准确率达到93.7%,服务接口翻译速度达到每秒139.72个字符,具有良好的并发性。 展开更多
关键词 汉语 维吾尔语 人名 DJANGO 循环神经网络
下载PDF
体育器材数据集的构建及分类方法研究 被引量:1
17
作者 石瑞 艾山·吾买尔 +2 位作者 早克热·卡德尔 王中玉 杰恩斯艾力·努尔达艾勒 《东北师大学报(自然科学版)》 CAS 北大核心 2022年第4期54-63,共10页
针对现有公开体育器材数据集较少且种类有限的缺点,构建了一个新的数据集SED(Sports Equipment Dataset),该数据集具有分布均衡、多样性高、背景丰富等优点.对于多类别小规模数据集,单一模型预测效果不能达到预期的准确率,因此在构建SE... 针对现有公开体育器材数据集较少且种类有限的缺点,构建了一个新的数据集SED(Sports Equipment Dataset),该数据集具有分布均衡、多样性高、背景丰富等优点.对于多类别小规模数据集,单一模型预测效果不能达到预期的准确率,因此在构建SED数据集基础上,提出了一种模型融合与迁移学习相结合的方法.选取ResNet50和InceptionV3作为特征提取器,将2个模型提取的特征融合输入到全连接层再实现分类.同时利用迁移学习的方法优化模型参数,进一步提高模型精度.实验结果表明,在涉及69类体育器材图片分类任务中,准确率达到85%,对体育器材图片分类具有较好的效果. 展开更多
关键词 体育器材 ResNet50 InceptionV3 迁移学习 模型融合
下载PDF
基于转移的神经网络哈萨克语句法分析 被引量:1
18
作者 白雅雯 古丽拉·阿东别克 《计算机工程与应用》 CSCD 北大核心 2019年第24期159-163,共5页
为了进一步提高哈萨克语句法分析的准确率,为哈萨克语自然语言处理奠定良好基础,对基于转移的哈萨克语句法分析进行研究,采用改进后的基于转移的方法对句法树进行处理,即中序遍历句法树的方法将句法树转换为动作序列。使用神经网络构建... 为了进一步提高哈萨克语句法分析的准确率,为哈萨克语自然语言处理奠定良好基础,对基于转移的哈萨克语句法分析进行研究,采用改进后的基于转移的方法对句法树进行处理,即中序遍历句法树的方法将句法树转换为动作序列。使用神经网络构建句法分析器框架,分别使用三个长短期记忆网络(LSTM)表示堆栈信息、缓冲区信息以及动作历史信息对模型进行训练,根据所得到的概率预测动作序列,从而得到句法分析的结果。改进后的转移方法得到的句法分析准确率为74.37%。 展开更多
关键词 句法分析 转移方法 长短期记忆网络(LSTM)
下载PDF
基于元嵌入的跨语言词嵌入方法研究 被引量:1
19
作者 韩越 艾山·吾买尔 《现代计算机》 2021年第20期20-25,32,共7页
跨语言词嵌入在自然语言处理任务中扮演着重要角色。现流行的跨语言词嵌入方法都基于一个同构假设,该假设认为不同语言的词嵌入空间具有相似的结构。然而,该同构假设在远距离语言对以及低资源上面临着巨大挑战。对此,提出对不同设置下... 跨语言词嵌入在自然语言处理任务中扮演着重要角色。现流行的跨语言词嵌入方法都基于一个同构假设,该假设认为不同语言的词嵌入空间具有相似的结构。然而,该同构假设在远距离语言对以及低资源上面临着巨大挑战。对此,提出对不同设置下的词嵌入进行融合创建元嵌入的方法提高跨语言词嵌入的质量。在EN-ZH上的实验结果表明,提出的元嵌入方法在跨语言词嵌入上的有效性。 展开更多
关键词 跨语言词嵌入 元嵌入 低资源 同构假设
下载PDF
面向大数据短文本的高并发语种识别系统的设计与实现 被引量:1
20
作者 伊克拉木·伊力哈木 艾山·吾买尔 +1 位作者 王路路 麦麦提依明·巴吾顿 《现代计算机》 2020年第20期7-13,共7页
在如今大数据环境中包含大量不同语种的网络短文本数据,尤其是在国内多民族地区的网络环境中多种语言混杂的情况普遍存在。为了解决此类易混淆短文本的识别问题,设计一种基于编码区间判断,特征字符检测和基于N-Gram的朴素贝叶斯分类器... 在如今大数据环境中包含大量不同语种的网络短文本数据,尤其是在国内多民族地区的网络环境中多种语言混杂的情况普遍存在。为了解决此类易混淆短文本的识别问题,设计一种基于编码区间判断,特征字符检测和基于N-Gram的朴素贝叶斯分类器相结合的多策略方法,并在此基础上设计一套结合Nginx、uWSGI和Django的语种识别系统,提升系统的高并发能力。实验结果表明,该系统能高效识别网络中各类易混淆短文本的所属语种信息。 展开更多
关键词 大数据 高并发 语种识别 N-GRAM 朴素贝叶斯 uWSGI NGINX DJANGO
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部