期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
自然语言处理领域中的词嵌入方法综述 被引量:2
1
作者 曾骏 王子威 +2 位作者 于扬 文俊浩 高旻 《计算机科学与探索》 CSCD 北大核心 2024年第1期24-43,共20页
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的... 词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的综述文献大多只关注于不同词嵌入方法本身的技术路线,而未能将词嵌入的前置分词方法以及词嵌入方法完整的演变趋势进行分析与概述。以word2vec模型和Transformer模型作为划分点,从生成的词向量是否能够动态地改变其内隐的语义信息来适配输入句子的整体语义这一角度,将词嵌入方法划分为静态词嵌入方法和动态词嵌入方法,并对此展开讨论。同时,针对词嵌入中的分词方法,包括整词切分和子词切分,进行了对比和分析;针对训练词向量所使用的语言模型,从概率语言模型到神经概率语言模型再到如今的深度上下文语言模型的演化,进行了详细列举和阐述;针对预训练语言模型时使用的训练策略进行了总结和探讨。最后,总结词向量质量的评估方法,分析词嵌入方法的当前现状并对其未来发展方向进行展望。 展开更多
关键词 词向量 词嵌入方法 自然语言处理 语言模型 分词 词向量评估
下载PDF
异构并行的DGA域名检测方法
2
作者 温雪岩 焦燕 +1 位作者 郭云飞 赵玉茗 《中国电子科学研究院学报》 北大核心 2023年第10期957-967,共11页
现有的DGA域名检测方式存在检测时间开销大、检测精度不高以及基于单词的DGA域名检测效果不佳等问题。经过研究发现,将域名先按照典型特征分类再进行更细致的特征提取,对于模型的准确率有一定的正向作用,且多类并行可以降低检测时间,此... 现有的DGA域名检测方式存在检测时间开销大、检测精度不高以及基于单词的DGA域名检测效果不佳等问题。经过研究发现,将域名先按照典型特征分类再进行更细致的特征提取,对于模型的准确率有一定的正向作用,且多类并行可以降低检测时间,此外对于较难检测的基于单词的DGA域名可以进行针对性处理。因此,文中提出了一种基于Word ninja分词技术的三路异构并行的DGA域名检测模型。先将域名分为三类,再针对每一类进行检测模型结构的搭建。对于字符级域名,通过人工提取特征来进行域名的有效分类。对于词根词缀级域名,采用FastTest进行子词之间、字符之间以及上下文之间关系的特征提取,再作为词向量嵌入。对于单词级域名,采用Word2Vec理解和处理词的含义和词之间的关系。最后,将文中方法和当前流行方法、多路异构并行模型和单路模型的检测结果进行比较评估,实验结果证明了提前分类的必要性以及多路并行的有效性。 展开更多
关键词 深度学习 恶意域名 机器学习 门控循环单元网络 词向量嵌入 word ninja分词技术
下载PDF
基于非线性全局上下文的词嵌入 被引量:3
3
作者 刘永彬 欧阳纯萍 +3 位作者 钟东来 李涓子 袁博志 李奇 《中国科学:信息科学》 CSCD 北大核心 2015年第12期1588-1599,共12页
针对当前词表示方法中的上下文的局限性,文章提出了一个基于非线性全局上下文的词表示方法.该方法主要分为两步骤,首先利用维基百科的排歧页,对文档中的当前词进行排歧处理,以此来提高词表示的效果.然后,再针对传统词表示方法中的线性... 针对当前词表示方法中的上下文的局限性,文章提出了一个基于非线性全局上下文的词表示方法.该方法主要分为两步骤,首先利用维基百科的排歧页,对文档中的当前词进行排歧处理,以此来提高词表示的效果.然后,再针对传统词表示方法中的线性局部上下文问题,利用依存和共指关系对语料进行分析,得出基于非线性全局上下文的词表示向量.文章选取英文维基百科数据集作为实验语料,在定性分析方面,该方法可以找到更接近当前词义的相关词,因对多义词进行了排歧处理,词表示结果上明显好于其他的方法.在定量比较方面,通过在Word Sim-353数据集上对比实验表明,该方法在Spearman相关系数上比其他方法高出5%~10%以上. 展开更多
关键词 非线性全局上下文 共指消解 词义排歧 词向量 词嵌入 神经网络 深度学习 依存关系分析
原文传递
结合字词向量的主题向量模型 被引量:2
4
作者 张青 韩立新 刘合兵 《电子测量技术》 2019年第3期49-53,共5页
为了将已有的英文主题向量模型更好地应用于中文的主题向量训练,并且解决主题个数事先确定的缺点。本文将原有模型中,文档向量和词向量线性相加的方式改为内积的方式,并结合文档向量、字向量和词向量三者一起训练主题向量。当得到主题... 为了将已有的英文主题向量模型更好地应用于中文的主题向量训练,并且解决主题个数事先确定的缺点。本文将原有模型中,文档向量和词向量线性相加的方式改为内积的方式,并结合文档向量、字向量和词向量三者一起训练主题向量。当得到主题向量后通过聚类方法将相似的主题聚集在一起,以此来确定主题个数。实验表明,该方法训练出的主题词的相关性较原有模型和传统模型有所提升,并且能够获得较为合理的主题个数,同时,还能够得到词向量,主题向量和文档向量。 展开更多
关键词 主题模型 字向量 主题向量 词向量 文档向量 字词嵌入
下载PDF
词向量算法的发展阶段研究
5
作者 李孟宁 《现代信息科技》 2021年第5期36-39,共4页
词向量作为自然语言处理的基础技术,随着大数据和深度神经网络的发展,其算法也随之得到了更好的发展,尤其是近些年来各类新式算法和思想层出不穷,使得自然语言处理的准确度得到极大的提升。在阐述各个词向量算法的同时,穿插例子和图表,... 词向量作为自然语言处理的基础技术,随着大数据和深度神经网络的发展,其算法也随之得到了更好的发展,尤其是近些年来各类新式算法和思想层出不穷,使得自然语言处理的准确度得到极大的提升。在阐述各个词向量算法的同时,穿插例子和图表,使大众更加清晰透彻理解算法的过程和优缺点。通过对词向量算法的发展进行整体的回顾,加深对词向量的理解,在解决问题的前提下为正确选用哪种词向量而做出更好的判断。 展开更多
关键词 词向量 独热编码 向量空间模型 静态词向量 动态词向量
下载PDF
基于高斯层次感知的知识图谱链接预测 被引量:1
6
作者 胡雪若白 黄洁 +1 位作者 王建涛 李一鸣 《电子科技》 2022年第12期91-96,共6页
传统知识图谱链接预测任务忽略了知识之间可能存在的语义层次以及知识的不确定性,导致链接预测结果不佳。针对该问题,文中提出一种高斯层次感知知识图谱链接预测模型。在该模型中,高斯嵌入部分引入实体和关系的高斯分布信息,以实体分布... 传统知识图谱链接预测任务忽略了知识之间可能存在的语义层次以及知识的不确定性,导致链接预测结果不佳。针对该问题,文中提出一种高斯层次感知知识图谱链接预测模型。在该模型中,高斯嵌入部分引入实体和关系的高斯分布信息,以实体分布和关系分布之间的距离来衡量实体之间是否存在链接。词向量嵌入部分将学习到的实体和关系的词向量转换为复向量,将词的复向量映射到极坐标系中建模实体的语义层次,以嵌入向量之间的距离来衡量实体之间是否存在链接。根据D-S证据理论,融合两部分得分函数,从而实现准确的知识图谱链接预测。实验结果表明,该模型可以有效地对知识图中实体的语义层次和不确定性进行建模,并且在现有基准数据集上的效果较优于其他方法。 展开更多
关键词 人工智能 知识图谱 知识表示 词向量 链接预测 高斯嵌入 极坐标系 D-S证据理论
下载PDF
变体上下文窗口下的词向量准确性研究 被引量:1
7
作者 胡正 杨志勇 《现代电子技术》 北大核心 2019年第6期146-148,153,共4页
词向量的准确性在较大程度上影响了这些自然语言处理任务的运行。词向量通过词嵌入产生,在词嵌入的方法中,都将目标单词及其上下文作为训练的输入,因此上下文的选定对词嵌入有着重要的影响。文中通过使用word2vec词嵌入方法,研究各种变... 词向量的准确性在较大程度上影响了这些自然语言处理任务的运行。词向量通过词嵌入产生,在词嵌入的方法中,都将目标单词及其上下文作为训练的输入,因此上下文的选定对词嵌入有着重要的影响。文中通过使用word2vec词嵌入方法,研究各种变体上下文窗口对词嵌入准确度的影响。根据上下文窗口的各种宽度、偏移量、权值进行了一系列实验。从实验结果中发现,上下文窗口的变化只会对整体训练结果的准确性造成很小的影响,然而对于其中具体的各个单词却有显著影响。从而得出结论,即大量单词各自所适应的上下文窗口区别较大,而统一的上下文窗口难以实现对全部单词的最佳训练。 展开更多
关键词 词向量 词嵌入 上下文窗口 自然语言处理 神经网络 深度学习
下载PDF
融合单词贡献度与Word2Vec词向量的文档表示 被引量:15
8
作者 彭俊利 谷雨 +1 位作者 张震 耿小航 《计算机工程》 CAS CSCD 北大核心 2021年第4期62-67,共6页
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值... 针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合。在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单词贡献度生成文档向量。实验结果表明,该方法在搜狗中文文本语料库和复旦大学中文文本分类语料库上分类的平均准确率、召回率和F1值均优于TF-IDF、均值Word2Vec、PTF-IDF加权Word2Vec模型等传统方法,同时其对英文文本也能进行有效分类。 展开更多
关键词 单词贡献度 word2Vec词向量 词嵌入 文档表示 文本分类
下载PDF
基于词嵌入技术的心理学研究:方法及应用 被引量:2
9
作者 包寒吴霜 王梓西 +5 位作者 程曦 苏展 杨盈 张光耀 王博 蔡华俭 《心理科学进展》 CSCD 北大核心 2023年第6期887-904,I0001-I0003,共21页
词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系,使用神经网络等机器学习算法自动提取有限维度的语义特征,将每个词表示为一个低维稠密的数值向量(词向量),以用于后续分析。心理学研究中,词向量... 词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系,使用神经网络等机器学习算法自动提取有限维度的语义特征,将每个词表示为一个低维稠密的数值向量(词向量),以用于后续分析。心理学研究中,词向量及其衍生的各种语义联系指标可用于探究人类的语义加工、认知判断、发散思维、社会偏见与刻板印象、社会与文化心理变迁等各类问题。未来,基于词嵌入技术的心理学研究需要区分心理的内隐和外显成分,深化拓展动态词向量和大型预训练语言模型(如GPT、BERT)的应用,并在时间和空间维度建立细粒度词向量数据库,更多开展基于词嵌入的社会变迁和跨文化研究。我们为心理学专门开发的R语言工具包PsychWordVec可以帮助研究者利用词嵌入技术开展心理学研究。 展开更多
关键词 自然语言处理 词嵌入 词向量 语义表征 语义关联 词嵌入联系测验
下载PDF
基于Transformer模型的神经机器翻译改进方法研究 被引量:1
10
作者 宫昀 《自动化与仪器仪表》 2023年第8期257-261,267,共6页
神经机器翻译为加深世界交流做出了巨大贡献,它的发展促进了世界化的发展。研究针对基础的Transformer模型存在的问题,对Transformer模型进行改进,进而提出一种组合式神经机器翻译模型。该模型引入ELMo、Mix-BA以及DMAL,优化了机器翻译... 神经机器翻译为加深世界交流做出了巨大贡献,它的发展促进了世界化的发展。研究针对基础的Transformer模型存在的问题,对Transformer模型进行改进,进而提出一种组合式神经机器翻译模型。该模型引入ELMo、Mix-BA以及DMAL,优化了机器翻译对单词的表达形式、多头注意力层之间的联系以及句子中重点单词的关注度。研究利用WMT14ende数据集与IWSLT14de-en数据集进行对比实验,在两种数据集中,组合式神经机器翻译模型的BLEU得分相较于Transformer基线模型分别高出1.07、0.92;在长句翻译中,组合式神经机器翻译模型的BLEU评分达到33.56,并高出LSTM模型5.72。结果表明研究所提出机器翻译模型具有更好的翻译效果,为神经机器翻译的发展提供新的思路。 展开更多
关键词 机器翻译 Transformer模型 动态词向量嵌入 混合多头注意力层 动态掩码注意力层
原文传递
基于深度学习的商品评论情感分类研究 被引量:2
11
作者 李文江 陈诗琴 《知识管理论坛》 2018年第6期353-363,共11页
[目的/意义]对已有的文本表示、分类算法进行组合,遴选一种复杂度低、训练时间少的组合方式,构建商品评论情感文本分类的优化模型。[方法/过程]以Keras API为应用环境,将Word2vec词向量输入Embedding嵌入层,依据句子词索引序列,通过控制... [目的/意义]对已有的文本表示、分类算法进行组合,遴选一种复杂度低、训练时间少的组合方式,构建商品评论情感文本分类的优化模型。[方法/过程]以Keras API为应用环境,将Word2vec词向量输入Embedding嵌入层,依据句子词索引序列,通过控制trainable参数实现3种商品评论的文本表示;将不同的文本表示分别与不同分类算法进行匹配,分析分类效果差异,确立较优算法组合。[结果/结论 ]Word2vec词向量输入Embedding嵌入层继续训练的文本表示方法,结合TextCNN算法训练获得的分类模型,在商品评论测试集上分类效果表现较好,准确率和ROC曲线面积AUC值分别为94.02%、0.982 7。应用表明,分类模型能较好实现商品评论的情感分类,有较好的分类泛化能力。 展开更多
关键词 深度学习 情感分类 word2vec词向量 embedding嵌入层 TextCNN
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部