期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
11
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
自然语言处理领域中的词嵌入方法综述
被引量:
2
1
作者
曾骏
王子威
+2 位作者
于扬
文俊浩
高旻
《计算机科学与探索》
CSCD
北大核心
2024年第1期24-43,共20页
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的...
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的综述文献大多只关注于不同词嵌入方法本身的技术路线,而未能将词嵌入的前置分词方法以及词嵌入方法完整的演变趋势进行分析与概述。以word2vec模型和Transformer模型作为划分点,从生成的词向量是否能够动态地改变其内隐的语义信息来适配输入句子的整体语义这一角度,将词嵌入方法划分为静态词嵌入方法和动态词嵌入方法,并对此展开讨论。同时,针对词嵌入中的分词方法,包括整词切分和子词切分,进行了对比和分析;针对训练词向量所使用的语言模型,从概率语言模型到神经概率语言模型再到如今的深度上下文语言模型的演化,进行了详细列举和阐述;针对预训练语言模型时使用的训练策略进行了总结和探讨。最后,总结词向量质量的评估方法,分析词嵌入方法的当前现状并对其未来发展方向进行展望。
展开更多
关键词
词向量
词嵌入方法
自然语言处理
语言模型
分词
词向量评估
下载PDF
职称材料
异构并行的DGA域名检测方法
2
作者
温雪岩
焦燕
+1 位作者
郭云飞
赵玉茗
《中国电子科学研究院学报》
北大核心
2023年第10期957-967,共11页
现有的DGA域名检测方式存在检测时间开销大、检测精度不高以及基于单词的DGA域名检测效果不佳等问题。经过研究发现,将域名先按照典型特征分类再进行更细致的特征提取,对于模型的准确率有一定的正向作用,且多类并行可以降低检测时间,此...
现有的DGA域名检测方式存在检测时间开销大、检测精度不高以及基于单词的DGA域名检测效果不佳等问题。经过研究发现,将域名先按照典型特征分类再进行更细致的特征提取,对于模型的准确率有一定的正向作用,且多类并行可以降低检测时间,此外对于较难检测的基于单词的DGA域名可以进行针对性处理。因此,文中提出了一种基于Word ninja分词技术的三路异构并行的DGA域名检测模型。先将域名分为三类,再针对每一类进行检测模型结构的搭建。对于字符级域名,通过人工提取特征来进行域名的有效分类。对于词根词缀级域名,采用FastTest进行子词之间、字符之间以及上下文之间关系的特征提取,再作为词向量嵌入。对于单词级域名,采用Word2Vec理解和处理词的含义和词之间的关系。最后,将文中方法和当前流行方法、多路异构并行模型和单路模型的检测结果进行比较评估,实验结果证明了提前分类的必要性以及多路并行的有效性。
展开更多
关键词
深度学习
恶意域名
机器学习
门控循环单元网络
词向量嵌入
word
ninja分词技术
下载PDF
职称材料
基于非线性全局上下文的词嵌入
被引量:
3
3
作者
刘永彬
欧阳纯萍
+3 位作者
钟东来
李涓子
袁博志
李奇
《中国科学:信息科学》
CSCD
北大核心
2015年第12期1588-1599,共12页
针对当前词表示方法中的上下文的局限性,文章提出了一个基于非线性全局上下文的词表示方法.该方法主要分为两步骤,首先利用维基百科的排歧页,对文档中的当前词进行排歧处理,以此来提高词表示的效果.然后,再针对传统词表示方法中的线性...
针对当前词表示方法中的上下文的局限性,文章提出了一个基于非线性全局上下文的词表示方法.该方法主要分为两步骤,首先利用维基百科的排歧页,对文档中的当前词进行排歧处理,以此来提高词表示的效果.然后,再针对传统词表示方法中的线性局部上下文问题,利用依存和共指关系对语料进行分析,得出基于非线性全局上下文的词表示向量.文章选取英文维基百科数据集作为实验语料,在定性分析方面,该方法可以找到更接近当前词义的相关词,因对多义词进行了排歧处理,词表示结果上明显好于其他的方法.在定量比较方面,通过在Word Sim-353数据集上对比实验表明,该方法在Spearman相关系数上比其他方法高出5%~10%以上.
展开更多
关键词
非线性全局上下文
共指消解
词义排歧
词向量
词嵌入
神经网络
深度学习
依存关系分析
原文传递
结合字词向量的主题向量模型
被引量:
2
4
作者
张青
韩立新
刘合兵
《电子测量技术》
2019年第3期49-53,共5页
为了将已有的英文主题向量模型更好地应用于中文的主题向量训练,并且解决主题个数事先确定的缺点。本文将原有模型中,文档向量和词向量线性相加的方式改为内积的方式,并结合文档向量、字向量和词向量三者一起训练主题向量。当得到主题...
为了将已有的英文主题向量模型更好地应用于中文的主题向量训练,并且解决主题个数事先确定的缺点。本文将原有模型中,文档向量和词向量线性相加的方式改为内积的方式,并结合文档向量、字向量和词向量三者一起训练主题向量。当得到主题向量后通过聚类方法将相似的主题聚集在一起,以此来确定主题个数。实验表明,该方法训练出的主题词的相关性较原有模型和传统模型有所提升,并且能够获得较为合理的主题个数,同时,还能够得到词向量,主题向量和文档向量。
展开更多
关键词
主题模型
字向量
主题向量
词向量
文档向量
字词嵌入
下载PDF
职称材料
词向量算法的发展阶段研究
5
作者
李孟宁
《现代信息科技》
2021年第5期36-39,共4页
词向量作为自然语言处理的基础技术,随着大数据和深度神经网络的发展,其算法也随之得到了更好的发展,尤其是近些年来各类新式算法和思想层出不穷,使得自然语言处理的准确度得到极大的提升。在阐述各个词向量算法的同时,穿插例子和图表,...
词向量作为自然语言处理的基础技术,随着大数据和深度神经网络的发展,其算法也随之得到了更好的发展,尤其是近些年来各类新式算法和思想层出不穷,使得自然语言处理的准确度得到极大的提升。在阐述各个词向量算法的同时,穿插例子和图表,使大众更加清晰透彻理解算法的过程和优缺点。通过对词向量算法的发展进行整体的回顾,加深对词向量的理解,在解决问题的前提下为正确选用哪种词向量而做出更好的判断。
展开更多
关键词
词向量
独热编码
向量空间模型
静态词向量
动态词向量
下载PDF
职称材料
基于高斯层次感知的知识图谱链接预测
被引量:
1
6
作者
胡雪若白
黄洁
+1 位作者
王建涛
李一鸣
《电子科技》
2022年第12期91-96,共6页
传统知识图谱链接预测任务忽略了知识之间可能存在的语义层次以及知识的不确定性,导致链接预测结果不佳。针对该问题,文中提出一种高斯层次感知知识图谱链接预测模型。在该模型中,高斯嵌入部分引入实体和关系的高斯分布信息,以实体分布...
传统知识图谱链接预测任务忽略了知识之间可能存在的语义层次以及知识的不确定性,导致链接预测结果不佳。针对该问题,文中提出一种高斯层次感知知识图谱链接预测模型。在该模型中,高斯嵌入部分引入实体和关系的高斯分布信息,以实体分布和关系分布之间的距离来衡量实体之间是否存在链接。词向量嵌入部分将学习到的实体和关系的词向量转换为复向量,将词的复向量映射到极坐标系中建模实体的语义层次,以嵌入向量之间的距离来衡量实体之间是否存在链接。根据D-S证据理论,融合两部分得分函数,从而实现准确的知识图谱链接预测。实验结果表明,该模型可以有效地对知识图中实体的语义层次和不确定性进行建模,并且在现有基准数据集上的效果较优于其他方法。
展开更多
关键词
人工智能
知识图谱
知识表示
词向量
链接预测
高斯嵌入
极坐标系
D-S证据理论
下载PDF
职称材料
变体上下文窗口下的词向量准确性研究
被引量:
1
7
作者
胡正
杨志勇
《现代电子技术》
北大核心
2019年第6期146-148,153,共4页
词向量的准确性在较大程度上影响了这些自然语言处理任务的运行。词向量通过词嵌入产生,在词嵌入的方法中,都将目标单词及其上下文作为训练的输入,因此上下文的选定对词嵌入有着重要的影响。文中通过使用word2vec词嵌入方法,研究各种变...
词向量的准确性在较大程度上影响了这些自然语言处理任务的运行。词向量通过词嵌入产生,在词嵌入的方法中,都将目标单词及其上下文作为训练的输入,因此上下文的选定对词嵌入有着重要的影响。文中通过使用word2vec词嵌入方法,研究各种变体上下文窗口对词嵌入准确度的影响。根据上下文窗口的各种宽度、偏移量、权值进行了一系列实验。从实验结果中发现,上下文窗口的变化只会对整体训练结果的准确性造成很小的影响,然而对于其中具体的各个单词却有显著影响。从而得出结论,即大量单词各自所适应的上下文窗口区别较大,而统一的上下文窗口难以实现对全部单词的最佳训练。
展开更多
关键词
词向量
词嵌入
上下文窗口
自然语言处理
神经网络
深度学习
下载PDF
职称材料
融合单词贡献度与Word2Vec词向量的文档表示
被引量:
15
8
作者
彭俊利
谷雨
+1 位作者
张震
耿小航
《计算机工程》
CAS
CSCD
北大核心
2021年第4期62-67,共6页
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值...
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合。在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单词贡献度生成文档向量。实验结果表明,该方法在搜狗中文文本语料库和复旦大学中文文本分类语料库上分类的平均准确率、召回率和F1值均优于TF-IDF、均值Word2Vec、PTF-IDF加权Word2Vec模型等传统方法,同时其对英文文本也能进行有效分类。
展开更多
关键词
单词贡献度
word
2Vec词向量
词嵌入
文档表示
文本分类
下载PDF
职称材料
基于词嵌入技术的心理学研究:方法及应用
被引量:
2
9
作者
包寒吴霜
王梓西
+5 位作者
程曦
苏展
杨盈
张光耀
王博
蔡华俭
《心理科学进展》
CSCD
北大核心
2023年第6期887-904,I0001-I0003,共21页
词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系,使用神经网络等机器学习算法自动提取有限维度的语义特征,将每个词表示为一个低维稠密的数值向量(词向量),以用于后续分析。心理学研究中,词向量...
词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系,使用神经网络等机器学习算法自动提取有限维度的语义特征,将每个词表示为一个低维稠密的数值向量(词向量),以用于后续分析。心理学研究中,词向量及其衍生的各种语义联系指标可用于探究人类的语义加工、认知判断、发散思维、社会偏见与刻板印象、社会与文化心理变迁等各类问题。未来,基于词嵌入技术的心理学研究需要区分心理的内隐和外显成分,深化拓展动态词向量和大型预训练语言模型(如GPT、BERT)的应用,并在时间和空间维度建立细粒度词向量数据库,更多开展基于词嵌入的社会变迁和跨文化研究。我们为心理学专门开发的R语言工具包PsychWordVec可以帮助研究者利用词嵌入技术开展心理学研究。
展开更多
关键词
自然语言处理
词嵌入
词向量
语义表征
语义关联
词嵌入联系测验
下载PDF
职称材料
基于Transformer模型的神经机器翻译改进方法研究
被引量:
1
10
作者
宫昀
《自动化与仪器仪表》
2023年第8期257-261,267,共6页
神经机器翻译为加深世界交流做出了巨大贡献,它的发展促进了世界化的发展。研究针对基础的Transformer模型存在的问题,对Transformer模型进行改进,进而提出一种组合式神经机器翻译模型。该模型引入ELMo、Mix-BA以及DMAL,优化了机器翻译...
神经机器翻译为加深世界交流做出了巨大贡献,它的发展促进了世界化的发展。研究针对基础的Transformer模型存在的问题,对Transformer模型进行改进,进而提出一种组合式神经机器翻译模型。该模型引入ELMo、Mix-BA以及DMAL,优化了机器翻译对单词的表达形式、多头注意力层之间的联系以及句子中重点单词的关注度。研究利用WMT14ende数据集与IWSLT14de-en数据集进行对比实验,在两种数据集中,组合式神经机器翻译模型的BLEU得分相较于Transformer基线模型分别高出1.07、0.92;在长句翻译中,组合式神经机器翻译模型的BLEU评分达到33.56,并高出LSTM模型5.72。结果表明研究所提出机器翻译模型具有更好的翻译效果,为神经机器翻译的发展提供新的思路。
展开更多
关键词
机器翻译
Transformer模型
动态词向量嵌入
混合多头注意力层
动态掩码注意力层
原文传递
基于深度学习的商品评论情感分类研究
被引量:
2
11
作者
李文江
陈诗琴
《知识管理论坛》
2018年第6期353-363,共11页
[目的/意义]对已有的文本表示、分类算法进行组合,遴选一种复杂度低、训练时间少的组合方式,构建商品评论情感文本分类的优化模型。[方法/过程]以Keras API为应用环境,将Word2vec词向量输入Embedding嵌入层,依据句子词索引序列,通过控制...
[目的/意义]对已有的文本表示、分类算法进行组合,遴选一种复杂度低、训练时间少的组合方式,构建商品评论情感文本分类的优化模型。[方法/过程]以Keras API为应用环境,将Word2vec词向量输入Embedding嵌入层,依据句子词索引序列,通过控制trainable参数实现3种商品评论的文本表示;将不同的文本表示分别与不同分类算法进行匹配,分析分类效果差异,确立较优算法组合。[结果/结论 ]Word2vec词向量输入Embedding嵌入层继续训练的文本表示方法,结合TextCNN算法训练获得的分类模型,在商品评论测试集上分类效果表现较好,准确率和ROC曲线面积AUC值分别为94.02%、0.982 7。应用表明,分类模型能较好实现商品评论的情感分类,有较好的分类泛化能力。
展开更多
关键词
深度学习
情感分类
word
2vec词向量
embedding
嵌入层
TextCNN
原文传递
题名
自然语言处理领域中的词嵌入方法综述
被引量:
2
1
作者
曾骏
王子威
于扬
文俊浩
高旻
机构
重庆大学大数据与软件学院
信息物理社会可信服务计算教育部重点实验室(重庆大学)
出处
《计算机科学与探索》
CSCD
北大核心
2024年第1期24-43,共20页
基金
国家重点研发计划(2019YFB1706104)
重庆市自然科学基金面上项目(cstc2020jcyj-msxmX0900)
+1 种基金
留学人员回国创业创新支持计划(cx2021125)
中央高校基本科研业务费专项资金(2020CDJ-LHZZ-040)。
文摘
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的综述文献大多只关注于不同词嵌入方法本身的技术路线,而未能将词嵌入的前置分词方法以及词嵌入方法完整的演变趋势进行分析与概述。以word2vec模型和Transformer模型作为划分点,从生成的词向量是否能够动态地改变其内隐的语义信息来适配输入句子的整体语义这一角度,将词嵌入方法划分为静态词嵌入方法和动态词嵌入方法,并对此展开讨论。同时,针对词嵌入中的分词方法,包括整词切分和子词切分,进行了对比和分析;针对训练词向量所使用的语言模型,从概率语言模型到神经概率语言模型再到如今的深度上下文语言模型的演化,进行了详细列举和阐述;针对预训练语言模型时使用的训练策略进行了总结和探讨。最后,总结词向量质量的评估方法,分析词嵌入方法的当前现状并对其未来发展方向进行展望。
关键词
词向量
词嵌入方法
自然语言处理
语言模型
分词
词向量评估
Keywords
word
vector
word
embedding
natural
language
processing
language
model
tokenization
word
vector
evaluation
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
异构并行的DGA域名检测方法
2
作者
温雪岩
焦燕
郭云飞
赵玉茗
机构
东北林业大学计算机与控制工程学院
出处
《中国电子科学研究院学报》
北大核心
2023年第10期957-967,共11页
基金
国家自然科学基金资助项目(61971119)。
文摘
现有的DGA域名检测方式存在检测时间开销大、检测精度不高以及基于单词的DGA域名检测效果不佳等问题。经过研究发现,将域名先按照典型特征分类再进行更细致的特征提取,对于模型的准确率有一定的正向作用,且多类并行可以降低检测时间,此外对于较难检测的基于单词的DGA域名可以进行针对性处理。因此,文中提出了一种基于Word ninja分词技术的三路异构并行的DGA域名检测模型。先将域名分为三类,再针对每一类进行检测模型结构的搭建。对于字符级域名,通过人工提取特征来进行域名的有效分类。对于词根词缀级域名,采用FastTest进行子词之间、字符之间以及上下文之间关系的特征提取,再作为词向量嵌入。对于单词级域名,采用Word2Vec理解和处理词的含义和词之间的关系。最后,将文中方法和当前流行方法、多路异构并行模型和单路模型的检测结果进行比较评估,实验结果证明了提前分类的必要性以及多路并行的有效性。
关键词
深度学习
恶意域名
机器学习
门控循环单元网络
词向量嵌入
word
ninja分词技术
Keywords
deep
learning
malicious
domain
name
machine
learning
gated
circulation
unit
network
word
vector
embedding
word
segmentation
technique
of
word
ninja
分类号
TN918 [电子电信—通信与信息系统]
TP393 [电子电信—信息与通信工程]
下载PDF
职称材料
题名
基于非线性全局上下文的词嵌入
被引量:
3
3
作者
刘永彬
欧阳纯萍
钟东来
李涓子
袁博志
李奇
机构
南华大学计算机学院
清华大学计算机科学与技术系
出处
《中国科学:信息科学》
CSCD
北大核心
2015年第12期1588-1599,共12页
基金
国家重点基础研究发展计划(973计划)(批准号:2014CB340504)
国家自然科学重点基金(批准号:61533018)
+2 种基金
国家自然科学青年基金(批准号:61402220)
国家自然科学基金中法合作项目(批准号:61261130588)
中国博士后基金(批准号:2014M550733)资助项目
文摘
针对当前词表示方法中的上下文的局限性,文章提出了一个基于非线性全局上下文的词表示方法.该方法主要分为两步骤,首先利用维基百科的排歧页,对文档中的当前词进行排歧处理,以此来提高词表示的效果.然后,再针对传统词表示方法中的线性局部上下文问题,利用依存和共指关系对语料进行分析,得出基于非线性全局上下文的词表示向量.文章选取英文维基百科数据集作为实验语料,在定性分析方面,该方法可以找到更接近当前词义的相关词,因对多义词进行了排歧处理,词表示结果上明显好于其他的方法.在定量比较方面,通过在Word Sim-353数据集上对比实验表明,该方法在Spearman相关系数上比其他方法高出5%~10%以上.
关键词
非线性全局上下文
共指消解
词义排歧
词向量
词嵌入
神经网络
深度学习
依存关系分析
Keywords
nonlinear
global
context
coreference
resolution
word
-sense
disambiguation
word
vector
word
embedding
neural
networks
deep
learning
dependency
parsing
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
结合字词向量的主题向量模型
被引量:
2
4
作者
张青
韩立新
刘合兵
机构
河海大学计算机与信息学院
河南农业大学信息与管理科学学院
出处
《电子测量技术》
2019年第3期49-53,共5页
基金
河南省科技攻关项目(162102110120)资助
文摘
为了将已有的英文主题向量模型更好地应用于中文的主题向量训练,并且解决主题个数事先确定的缺点。本文将原有模型中,文档向量和词向量线性相加的方式改为内积的方式,并结合文档向量、字向量和词向量三者一起训练主题向量。当得到主题向量后通过聚类方法将相似的主题聚集在一起,以此来确定主题个数。实验表明,该方法训练出的主题词的相关性较原有模型和传统模型有所提升,并且能够获得较为合理的主题个数,同时,还能够得到词向量,主题向量和文档向量。
关键词
主题模型
字向量
主题向量
词向量
文档向量
字词嵌入
Keywords
topic
model
character
vector
topic
vector
word
vector
document
vector
character
word
embedding
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
词向量算法的发展阶段研究
5
作者
李孟宁
机构
对外经贸大学统计学院
出处
《现代信息科技》
2021年第5期36-39,共4页
文摘
词向量作为自然语言处理的基础技术,随着大数据和深度神经网络的发展,其算法也随之得到了更好的发展,尤其是近些年来各类新式算法和思想层出不穷,使得自然语言处理的准确度得到极大的提升。在阐述各个词向量算法的同时,穿插例子和图表,使大众更加清晰透彻理解算法的过程和优缺点。通过对词向量算法的发展进行整体的回顾,加深对词向量的理解,在解决问题的前提下为正确选用哪种词向量而做出更好的判断。
关键词
词向量
独热编码
向量空间模型
静态词向量
动态词向量
Keywords
word
embedding
one-hot
encoding
vector
space
model
static
word
embedding
dynamic
word
embedding
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于高斯层次感知的知识图谱链接预测
被引量:
1
6
作者
胡雪若白
黄洁
王建涛
李一鸣
机构
战略支援部队信息工程大学数据与目标工程学院
出处
《电子科技》
2022年第12期91-96,共6页
基金
国家自然科学基金(61501513)。
文摘
传统知识图谱链接预测任务忽略了知识之间可能存在的语义层次以及知识的不确定性,导致链接预测结果不佳。针对该问题,文中提出一种高斯层次感知知识图谱链接预测模型。在该模型中,高斯嵌入部分引入实体和关系的高斯分布信息,以实体分布和关系分布之间的距离来衡量实体之间是否存在链接。词向量嵌入部分将学习到的实体和关系的词向量转换为复向量,将词的复向量映射到极坐标系中建模实体的语义层次,以嵌入向量之间的距离来衡量实体之间是否存在链接。根据D-S证据理论,融合两部分得分函数,从而实现准确的知识图谱链接预测。实验结果表明,该模型可以有效地对知识图中实体的语义层次和不确定性进行建模,并且在现有基准数据集上的效果较优于其他方法。
关键词
人工智能
知识图谱
知识表示
词向量
链接预测
高斯嵌入
极坐标系
D-S证据理论
Keywords
artificial
intelligence
knowledge
map
knowledge
representation
word
vector
link
prediction
Gaussian
embedding
polar
coordinate
system
D-S
evidence
theory
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
变体上下文窗口下的词向量准确性研究
被引量:
1
7
作者
胡正
杨志勇
机构
南昌航空大学软件学院
出处
《现代电子技术》
北大核心
2019年第6期146-148,153,共4页
基金
国家自然科学基金资助项目(61501218)~~
文摘
词向量的准确性在较大程度上影响了这些自然语言处理任务的运行。词向量通过词嵌入产生,在词嵌入的方法中,都将目标单词及其上下文作为训练的输入,因此上下文的选定对词嵌入有着重要的影响。文中通过使用word2vec词嵌入方法,研究各种变体上下文窗口对词嵌入准确度的影响。根据上下文窗口的各种宽度、偏移量、权值进行了一系列实验。从实验结果中发现,上下文窗口的变化只会对整体训练结果的准确性造成很小的影响,然而对于其中具体的各个单词却有显著影响。从而得出结论,即大量单词各自所适应的上下文窗口区别较大,而统一的上下文窗口难以实现对全部单词的最佳训练。
关键词
词向量
词嵌入
上下文窗口
自然语言处理
神经网络
深度学习
Keywords
word
vector
word
embedding
context
window
natural
language
processing
neural
network
deep
learning
分类号
TN912.34-34 [电子电信—通信与信息系统]
TP391.1 [电子电信—信息与通信工程]
下载PDF
职称材料
题名
融合单词贡献度与Word2Vec词向量的文档表示
被引量:
15
8
作者
彭俊利
谷雨
张震
耿小航
机构
杭州电子科技大学通信信息传输与融合技术国防重点学科实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第4期62-67,共6页
基金
国家自然科学基金(61673146)。
文摘
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合。在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单词贡献度生成文档向量。实验结果表明,该方法在搜狗中文文本语料库和复旦大学中文文本分类语料库上分类的平均准确率、召回率和F1值均优于TF-IDF、均值Word2Vec、PTF-IDF加权Word2Vec模型等传统方法,同时其对英文文本也能进行有效分类。
关键词
单词贡献度
word
2Vec词向量
词嵌入
文档表示
文本分类
Keywords
Term
Contribution(TC)
word
2Vec
word
vector
word
embedding
document
representation
text
classification
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于词嵌入技术的心理学研究:方法及应用
被引量:
2
9
作者
包寒吴霜
王梓西
程曦
苏展
杨盈
张光耀
王博
蔡华俭
机构
中国科学院心理研究所行为科学重点实验室
中国科学院大学心理学系
英国曼彻斯特大学曼彻斯特中国研究院
北京师范大学认知神经科学与学习国家重点实验室和IDG/麦戈文脑科学研究院
天津大学智能与计算学部
出处
《心理科学进展》
CSCD
北大核心
2023年第6期887-904,I0001-I0003,共21页
基金
国家社会科学基金重大项目“中国社会变迁过程中的文化与心理变化”(17ZDA324)
中国科学院心理研究所自主部署项目“文化变迁与社会适应:行为和影像学的研究”(E2CX3935CX)。
文摘
词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系,使用神经网络等机器学习算法自动提取有限维度的语义特征,将每个词表示为一个低维稠密的数值向量(词向量),以用于后续分析。心理学研究中,词向量及其衍生的各种语义联系指标可用于探究人类的语义加工、认知判断、发散思维、社会偏见与刻板印象、社会与文化心理变迁等各类问题。未来,基于词嵌入技术的心理学研究需要区分心理的内隐和外显成分,深化拓展动态词向量和大型预训练语言模型(如GPT、BERT)的应用,并在时间和空间维度建立细粒度词向量数据库,更多开展基于词嵌入的社会变迁和跨文化研究。我们为心理学专门开发的R语言工具包PsychWordVec可以帮助研究者利用词嵌入技术开展心理学研究。
关键词
自然语言处理
词嵌入
词向量
语义表征
语义关联
词嵌入联系测验
Keywords
natural
language
processing
word
embedding
word
vector
semantic
representation
semantic
relatedness
word
embedding
Association
Test(WEAT)
分类号
B841 [哲学宗教—基础心理学]
B849 [哲学宗教—心理学]
C91 [经济管理]
下载PDF
职称材料
题名
基于Transformer模型的神经机器翻译改进方法研究
被引量:
1
10
作者
宫昀
机构
咸阳师范学院
出处
《自动化与仪器仪表》
2023年第8期257-261,267,共6页
基金
陕西省“十四五”教育科学规划2022年度课题(SGH22Y1419)
2023年度陕西省哲学社会科学研究专项(2023QN0273)
咸阳师范学院、陕西省教育学会2021年教育教学改革研究项目(2021Y034)。
文摘
神经机器翻译为加深世界交流做出了巨大贡献,它的发展促进了世界化的发展。研究针对基础的Transformer模型存在的问题,对Transformer模型进行改进,进而提出一种组合式神经机器翻译模型。该模型引入ELMo、Mix-BA以及DMAL,优化了机器翻译对单词的表达形式、多头注意力层之间的联系以及句子中重点单词的关注度。研究利用WMT14ende数据集与IWSLT14de-en数据集进行对比实验,在两种数据集中,组合式神经机器翻译模型的BLEU得分相较于Transformer基线模型分别高出1.07、0.92;在长句翻译中,组合式神经机器翻译模型的BLEU评分达到33.56,并高出LSTM模型5.72。结果表明研究所提出机器翻译模型具有更好的翻译效果,为神经机器翻译的发展提供新的思路。
关键词
机器翻译
Transformer模型
动态词向量嵌入
混合多头注意力层
动态掩码注意力层
Keywords
MT
Transformer
model
dynamic
word
vector
embedding
mixed
multiple
attention
layers
dynamic
Mask
Attention
Layer
分类号
TP29 [自动化与计算机技术—检测技术与自动化装置]
原文传递
题名
基于深度学习的商品评论情感分类研究
被引量:
2
11
作者
李文江
陈诗琴
机构
重庆文理学院机电工程学院
重庆文理学院图书馆
出处
《知识管理论坛》
2018年第6期353-363,共11页
文摘
[目的/意义]对已有的文本表示、分类算法进行组合,遴选一种复杂度低、训练时间少的组合方式,构建商品评论情感文本分类的优化模型。[方法/过程]以Keras API为应用环境,将Word2vec词向量输入Embedding嵌入层,依据句子词索引序列,通过控制trainable参数实现3种商品评论的文本表示;将不同的文本表示分别与不同分类算法进行匹配,分析分类效果差异,确立较优算法组合。[结果/结论 ]Word2vec词向量输入Embedding嵌入层继续训练的文本表示方法,结合TextCNN算法训练获得的分类模型,在商品评论测试集上分类效果表现较好,准确率和ROC曲线面积AUC值分别为94.02%、0.982 7。应用表明,分类模型能较好实现商品评论的情感分类,有较好的分类泛化能力。
关键词
深度学习
情感分类
word
2vec词向量
embedding
嵌入层
TextCNN
Keywords
deep
learning
sentiment
classification
word
2vec
word
vector
embedding
embedded
layer
TextCNN
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
TP18 [自动化与计算机技术—计算机科学与技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
自然语言处理领域中的词嵌入方法综述
曾骏
王子威
于扬
文俊浩
高旻
《计算机科学与探索》
CSCD
北大核心
2024
2
下载PDF
职称材料
2
异构并行的DGA域名检测方法
温雪岩
焦燕
郭云飞
赵玉茗
《中国电子科学研究院学报》
北大核心
2023
0
下载PDF
职称材料
3
基于非线性全局上下文的词嵌入
刘永彬
欧阳纯萍
钟东来
李涓子
袁博志
李奇
《中国科学:信息科学》
CSCD
北大核心
2015
3
原文传递
4
结合字词向量的主题向量模型
张青
韩立新
刘合兵
《电子测量技术》
2019
2
下载PDF
职称材料
5
词向量算法的发展阶段研究
李孟宁
《现代信息科技》
2021
0
下载PDF
职称材料
6
基于高斯层次感知的知识图谱链接预测
胡雪若白
黄洁
王建涛
李一鸣
《电子科技》
2022
1
下载PDF
职称材料
7
变体上下文窗口下的词向量准确性研究
胡正
杨志勇
《现代电子技术》
北大核心
2019
1
下载PDF
职称材料
8
融合单词贡献度与Word2Vec词向量的文档表示
彭俊利
谷雨
张震
耿小航
《计算机工程》
CAS
CSCD
北大核心
2021
15
下载PDF
职称材料
9
基于词嵌入技术的心理学研究:方法及应用
包寒吴霜
王梓西
程曦
苏展
杨盈
张光耀
王博
蔡华俭
《心理科学进展》
CSCD
北大核心
2023
2
下载PDF
职称材料
10
基于Transformer模型的神经机器翻译改进方法研究
宫昀
《自动化与仪器仪表》
2023
1
原文传递
11
基于深度学习的商品评论情感分类研究
李文江
陈诗琴
《知识管理论坛》
2018
2
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部