期刊文献+
共找到574篇文章
< 1 2 29 >
每页显示 20 50 100
基于Word2Vec的一种文档向量表示 被引量:142
1
作者 唐明 朱磊 邹显春 《计算机科学》 CSCD 北大核心 2016年第6期214-217,269,共5页
在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF... 在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF算法计算每篇文档中词的权重,并结合word2vec词向量生成文档向量,最后将其应用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。 展开更多
关键词 TF-IDF word2vec doc2vec 文本分类
下载PDF
融合主题与情感特征的突发事件微博舆情演化分析 被引量:110
2
作者 安璐 吴林 《图书情报工作》 CSSCI 北大核心 2017年第15期120-129,共10页
[目的/意义]微博是突发事件网络舆情传播的重要媒介。面向突发事件的微博主题和情感挖掘对掌握突发事件的网络舆情、识别与预测潜在问题及风险等方面具有重要的实践意义。尝试提出一种融合主题与情感特征的突发事件微博舆情演化分析方法... [目的/意义]微博是突发事件网络舆情传播的重要媒介。面向突发事件的微博主题和情感挖掘对掌握突发事件的网络舆情、识别与预测潜在问题及风险等方面具有重要的实践意义。尝试提出一种融合主题与情感特征的突发事件微博舆情演化分析方法。[方法/过程]以寨卡事件为例,通过划分微博舆情演化的生命周期,基于word2vec技术分别提取该事件生命周期各阶段的微博主题,采用基于词典的情感分析方法,引入情感词、表情符号等多情绪源,对不同主题下的评论情感做细粒度划分,并计算情感强度,最终实现微博主题与情感的协同分析。[结果/结论]所提出的微博舆情演化分析方法能够揭示面向特定事件的微博在突发事件生命周期各阶段的主题特征、情感类型与强度,剖析网络舆情主题与情感特征的协同演化规律。 展开更多
关键词 主题分析 情感分析 word2vec 微博 舆情 突发事件
原文传递
Word2vec的工作原理及应用探究 被引量:100
3
作者 周练 《科技情报开发与经济》 2015年第2期145-148,共4页
研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练... 研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练模型的目标函数,介绍了Word2vec工程的主要文件和训练参数,并将Word2vec应用于中文词向量的训练。 展开更多
关键词 word2vec 词向量 统计语言模型
下载PDF
Word2vec的核心架构及其应用 被引量:68
4
作者 熊富林 邓怡豪 唐晓晟 《南京师范大学学报(工程技术版)》 CAS 2015年第1期43-48,共6页
神经网络概率语言模型是一种新兴的自然语言处理算法,该模型通过学习训练语料获得词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加... 神经网络概率语言模型是一种新兴的自然语言处理算法,该模型通过学习训练语料获得词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加减代数运算则是计算机在"遣词造句".近年来,神经网络概率语言模型发展迅速,Word2vec是最新技术理论的合集.首先,重点介绍Word2vec的核心架构CBOW及Skip-gram;接着,使用英文语料训练Word2vec模型,对比两种架构的异同;最后,探讨了Word2vec模型在中文语料处理中的应用. 展开更多
关键词 自然语言处理 word2vec CBOW Skip-gram 中文语言处理
下载PDF
融合Word2vec与TextRank的关键词抽取研究 被引量:66
5
作者 宁建飞 刘降珍 《现代图书情报技术》 CSSCI 2016年第6期20-27,共8页
【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之... 【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配,并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec与Text Rank的有效融合,且当训练文档集词汇分布合理时,关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练,获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系,提升单文档的关键词抽取准确性。 展开更多
关键词 抽取 word2vec TextRank 图模型 词向量
原文传递
词向量聚类加权TextRank的关键词抽取 被引量:60
6
作者 夏天 《数据分析与知识发现》 CSSCI CSCD 2017年第2期28-34,共7页
【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank模型,改进单文档关键词抽取效果。【方法】利用Word2Vec模型基于维基百科中文数据,生成词向量模型,对TextRank词图节点的词向量进行聚类以调整簇内节点的投票重要性,结合节点... 【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank模型,改进单文档关键词抽取效果。【方法】利用Word2Vec模型基于维基百科中文数据,生成词向量模型,对TextRank词图节点的词向量进行聚类以调整簇内节点的投票重要性,结合节点的覆盖和位置因素,计算节点之间的随机跳转概率,生成转移矩阵,最终通过迭代计算获得节点的重要性得分,选取前TopN个词语生成关键词。【结果】当TopN≤7时,词向量聚类加权方法均优于对比方法;TopN=3时,F值取得最大值,比先前最优结果增量提升了3.374%;TopN>7时,结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。 展开更多
关键词 关键词抽取 词向量 TextRank word2vec
原文传递
基于Word2vec的句子语义相似度计算研究 被引量:56
7
作者 李晓 解辉 李立杰 《计算机科学》 CSCD 北大核心 2017年第9期256-260,共5页
word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息。因此,借助哈尔滨工业大学的LTP平台,设计利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。此... word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息。因此,借助哈尔滨工业大学的LTP平台,设计利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。此外,将句子的结构信息添加到句子相似度计算中,并就特殊句式对算法进行了改进,同时考虑到了词汇之间的句法关系。实验结果表明,该方法更准确地揭示了句子之间的语义关系,句法结构的提取和算法的改进解决了复杂句式的相似度计算问题,提高了相似度计算的准确率。 展开更多
关键词 句子相似度 word2vec 词向量 语义 句法结构
下载PDF
基于Word2vec的微博短文本分类研究 被引量:51
8
作者 张谦 高章敏 刘嘉勇 《信息网络安全》 CSCD 2017年第1期57-62,共6页
随着微博等社会化媒体的信息量急剧膨胀,人们迫切需要实现这些信息的自动分类处理,以帮助用户快速查找所需信息和过滤垃圾信息。针对传统文本分类模型存在的特征维数灾难、无语义特征等问题,文章基于Word2vec模型对微博短文本进行了分... 随着微博等社会化媒体的信息量急剧膨胀,人们迫切需要实现这些信息的自动分类处理,以帮助用户快速查找所需信息和过滤垃圾信息。针对传统文本分类模型存在的特征维数灾难、无语义特征等问题,文章基于Word2vec模型对微博短文本进行了分类研究。鉴于Word2vec模型无法区分文本中词汇的重要程度,进一步引入TFIDF对Word2vec词向量进行加权,实现加权的Word2vec分类模型。最后合并加权Word2vec和TFIDF两种模型,实验结果表明合并后模型分类准确率高于加权Word2vec模型和使用TFIDF的传统文本分类模型。 展开更多
关键词 短文本分类 word2vec TFIDF 支持向量机
下载PDF
基于word2vec的互联网商品评论情感倾向研究 被引量:51
9
作者 黄仁 张卫 《计算机科学》 CSCD 北大核心 2016年第S1期387-389,共3页
在电子商务蓬勃发展的网络环境下,产品的评论数据已成为企业提高商品质量和提升服务的重要数据源。这些评论中包含用户对产品各个方面的情感倾向,对其进行情感分析可以帮助商家了解产品的优缺点,也能为潜在消费者的购买决策提供数据支... 在电子商务蓬勃发展的网络环境下,产品的评论数据已成为企业提高商品质量和提升服务的重要数据源。这些评论中包含用户对产品各个方面的情感倾向,对其进行情感分析可以帮助商家了解产品的优缺点,也能为潜在消费者的购买决策提供数据支持。提出了基于组合神经网络的商品属性聚类及基于word2vec的商品评论情感分析新方法,通过word2vec计算语义相似度,建立情感词典,用构建的情感词典对测试文本进行情感分类。实验验证了该方法在互联网商品评论中的有效性和准确性。 展开更多
关键词 word2vec 情感倾向 情感词典 情感分类
下载PDF
基于Word2Vec和SVM的微博舆情情感演化分析 被引量:50
10
作者 邓君 孙绍丹 +2 位作者 王阮 宋先智 李贺 《情报理论与实践》 CSSCI 北大核心 2020年第8期112-119,共8页
文章主要以微博"滴滴温州女孩遇害"话题评论内容为数据源,计算评论内容的情感值,标注情感正负性,通过Word2Vec和SVM方法构建情感分类模型。采用Word2Vec方法计算与此舆情事件中相关的5类主体对象(滴滴、司机、客服、女孩、警... 文章主要以微博"滴滴温州女孩遇害"话题评论内容为数据源,计算评论内容的情感值,标注情感正负性,通过Word2Vec和SVM方法构建情感分类模型。采用Word2Vec方法计算与此舆情事件中相关的5类主体对象(滴滴、司机、客服、女孩、警察)高相似度的词语,从情感时序分析和舆情主体对象情感演化分析两个方面探讨微博舆情的情感走势。通过分析发现,情感分类模型可以有效预测网民的情感走势;网民的情感时序变化与舆情演变规律相吻合;Word2Vec词相似度计算模型可以有效反映网民对五类主体对象的情感态度和该舆情阶段内的主题特征。 展开更多
关键词 微博 情感分析 网络舆情 word2vec 支持向量机
原文传递
基于word2vec的关键词提取算法 被引量:45
11
作者 李跃鹏 金翠 及俊川 《科研信息化技术与应用》 2015年第4期54-59,共6页
随着近些年深度学习的兴起,词语在计算机中的表示有了重大突破;而长期以来关键词提取算法均以词语作为特征进行计算,效果并不理想。因此,本文提出了一种基于深度学习工具word2vec的关键词提取算法。该算法首先使用word2vec将所有词语映... 随着近些年深度学习的兴起,词语在计算机中的表示有了重大突破;而长期以来关键词提取算法均以词语作为特征进行计算,效果并不理想。因此,本文提出了一种基于深度学习工具word2vec的关键词提取算法。该算法首先使用word2vec将所有词语映射到一个更抽象的词向量空间中;然后基于词向量计算词语之间的相似度,最终通过词语聚类得到文章关键词。实验表明该算法对于篇幅长文章的关键词提取的准确率要明显高于其他算法。 展开更多
关键词 word2vec 关键词提取 词向量
原文传递
基于word2vec和LSTM的饮食健康文本分类研究 被引量:42
12
作者 赵明 杜会芳 +1 位作者 董翠翠 陈长松 《农业机械学报》 EI CAS CSCD 北大核心 2017年第10期202-208,共7页
为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维... 为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维度灾难问题,基于K-means++根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入,训练LSTM分类模型,自动提取特征,进行饮食宜、忌的文本分类。实验采用48 000个文档进行测试,结果显示,分类准确率为98.08%,高于利用tf-idf、bag-of-words等文本数值化表示方法以及基于支持向量机(Support vector machine,SVM)和卷积神经网络(Convolutional neural network,CNN)分类算法结果。实验结果表明,利用该方法能够高质量地对饮食文本自动分类,帮助人们有效地利用健康饮食信息。 展开更多
关键词 文本分类 word2vec 词向量 长短期记忆网络 K-means++
下载PDF
基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型 被引量:40
13
作者 王根生 黄学坚 《小型微型计算机系统》 CSCD 北大核心 2019年第5期1120-1126,共7页
针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出... 针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出基于类频方差改进型TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量表示;最后借助卷积神经网络从局部到全局相关性特征的学习能力,对该大量文本向量进行深度学习.试验结果表明三者结合的文本分类模型不仅能实现文本的准确分类,并且相比传统的机器学习文本分类算法具有更好的分类效果. 展开更多
关键词 word2vec 改进型TF-IDF算法 卷积神经网络 文本分类 CTMWT
下载PDF
基于Word2Vec的中文短文本分类问题研究 被引量:38
14
作者 汪静 罗浪 王德强 《计算机系统应用》 2018年第5期209-215,共7页
针对短文本中固有的特征稀疏以及传统分类模型存在的"词汇鸿沟"等问题,我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题,并且引入传统文本分类模型中不具有的语义关系.但进一步发现单纯利用Word2Vec模型忽略了... 针对短文本中固有的特征稀疏以及传统分类模型存在的"词汇鸿沟"等问题,我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题,并且引入传统文本分类模型中不具有的语义关系.但进一步发现单纯利用Word2Vec模型忽略了不同词性的词语对短文本的影响力,因此引入词性改进特征权重计算方法,将词性对文本分类的贡献度嵌入到传统的TF-IDF算法中计算短文本中词的权重,并结合Word2Vec词向量生成短文本向量,最后利用SVM实现短文本分类.在复旦大学中文文本分类语料库上的实验结果验证了该方法的有效性. 展开更多
关键词 word2vec TF-IDF 文本表示 短文本分类
下载PDF
基于Word2Vec和CNN的产品评论细粒度情感分析模型 被引量:29
15
作者 蔡庆平 马海群 《图书情报工作》 CSSCI 北大核心 2020年第6期49-58,共10页
[目的/意义]构建一种基于Word2Vec和CNN的产品评论细粒度情感分析模型。[方法/过程]首先使用Word2Vec从产品评论中构建产品特征词列表和噪声词表,其次借助噪声词表来进行产品评论特征词的提取,然后采用CNN对产品评论进行产品特征层面的... [目的/意义]构建一种基于Word2Vec和CNN的产品评论细粒度情感分析模型。[方法/过程]首先使用Word2Vec从产品评论中构建产品特征词列表和噪声词表,其次借助噪声词表来进行产品评论特征词的提取,然后采用CNN对产品评论进行产品特征层面的细粒度情感分类,最后实现基于产品特征的产品评论聚类。[结果/结论]通过爬取京东商城华为手机评论对该模型进行训练和测试,结果表明,该模型能够有效实现产品评论的细粒度情感分析,可以有效地发现用户对产品特征的关注度和满意度。 展开更多
关键词 情感分析 产品评论 CNN word2vec 细粒度
原文传递
融合知识库和深度学习的电网监控告警事件智能识别 被引量:28
16
作者 孙国强 沈培锋 +4 位作者 赵扬 朱红勤 丁小柳 卫志农 臧海祥 《电力自动化设备》 EI CSCD 北大核心 2020年第4期40-47,共8页
电网监控告警信息是监控人员进行监控事件识别的重要数据基础。针对当前人为处理海量监控告警信息效率低的现状和电网智能技术深化应用的需求,提出一种融合知识库和深度学习的电网监控告警事件自主识别方法。基于自然语言处理技术中的Wo... 电网监控告警信息是监控人员进行监控事件识别的重要数据基础。针对当前人为处理海量监控告警信息效率低的现状和电网智能技术深化应用的需求,提出一种融合知识库和深度学习的电网监控告警事件自主识别方法。基于自然语言处理技术中的Word2vec模型对监控告警信息进行向量化建模,基于卷积神经网络建立监控告警事件识别模型,通过算例对比验证所建模型的有效性和实用性。提出融合知识库与所建模型的应用方法,实现电网监控告警事件的智能感知和可靠识别。 展开更多
关键词 电网监控 告警信息 word2vec 卷积神经网络 事件识别 知识库 深度学习
下载PDF
基于word2vec词模型的中文短文本分类方法 被引量:28
17
作者 高明霞 李经纬 《山东大学学报(工学版)》 CAS CSCD 北大核心 2019年第2期34-41,共8页
针对受字数限定影响的文本特征表达能力弱成为短文本分类中制约效果的主要问题,提出基于word2vec维基百科词模型的中文短文本分类方法(chinese short text classification method based on embedding trained by word2vec from wikipedi... 针对受字数限定影响的文本特征表达能力弱成为短文本分类中制约效果的主要问题,提出基于word2vec维基百科词模型的中文短文本分类方法(chinese short text classification method based on embedding trained by word2vec from wikipedia, CSTC-EWW),并针对新浪爱问4个主题的短文本集进行相关试验。首先训练维基百科语料库并获取word2vec词模型,然后建立基于此模型的短文本特征,通过SVM、贝叶斯等经典分类器对短文本进行分类。试验结果表明:本研究提出的方法可以有效进行短文本分类,最好情况下的F-度量值可达到81.8%;和词袋(bag-of-words, BOW)模型结合词频-逆文件频率(term frequency-inverse document frequency, TF-IDF)加权表达特征的短文本分类方法以及同样引入外来维基百科语料扩充特征的短文本分类方法相比,本研究分类效果更好,最好情况下的F-度量提高45.2%。 展开更多
关键词 短文本 中文文本分类 维基百科 word2vec 词嵌入
原文传递
基于词向量的文本特征选择方法研究 被引量:27
18
作者 陈磊 李俊 《小型微型计算机系统》 CSCD 北大核心 2018年第5期991-994,共4页
文本分类的效果依赖于文本特征选择的好坏.传统的特征选择方法,利用特征的词频或者特征与类别的关系,进行特征选择.不仅没有考虑特征的语义,而且大多只能用于标注数据集的特征选择.本文提出LDA词向量特征选择方法和Word2vec词向量特征... 文本分类的效果依赖于文本特征选择的好坏.传统的特征选择方法,利用特征的词频或者特征与类别的关系,进行特征选择.不仅没有考虑特征的语义,而且大多只能用于标注数据集的特征选择.本文提出LDA词向量特征选择方法和Word2vec词向量特征选择方法,分别在主题空间和词语上下文关系上,学习特征的语义,进行特征选择.语料经特征选择后,利用向量空间模型进行分类.在复旦语料上的实验结果表明,基于词向量的特征选择分类效果相对于传统的特征选择得到了改善.并且,基于词向量的特征选择是一种无监督的方法,无需标注类别信息. 展开更多
关键词 特征选择 LDA word2vec 词向量 文本分类
下载PDF
基于事理图谱的网络舆情事件预测方法研究 被引量:25
19
作者 单晓红 庞世红 +1 位作者 刘晓燕 杨娟 《情报理论与实践》 CSSCI 北大核心 2020年第10期165-170,156,共7页
[目的/意义]互联网的开放式传播给网络舆情的监管和治理带来困难。准确地预测网络舆情事件能够帮助政府等相关部门及时、有针对性地采取引导措施,控制网络舆情的传播。[方法/过程]首先采集网络舆情数据构建事理图谱,通过改进聚类算法实... [目的/意义]互联网的开放式传播给网络舆情的监管和治理带来困难。准确地预测网络舆情事件能够帮助政府等相关部门及时、有针对性地采取引导措施,控制网络舆情的传播。[方法/过程]首先采集网络舆情数据构建事理图谱,通过改进聚类算法实现舆情事件泛化,构建抽象事理图谱。根据抽象事理图谱中事件演化方向和概率大小,预测网络舆情事件。[结果/结论]医疗网络舆情实证结果表明,该方法可以较好地预测舆情事件,准确率达到72.03%。网络舆情事件预测有效地补充了现有网络舆情预测研究仅关注热度、情感和话题的不足,为更精准地实现网络舆情治理提供了支持。 展开更多
关键词 网络舆情 事件预测 事理图谱 事件泛化 改进kmeans聚类 word2vec
原文传递
基于Word2vec的情感分析在品牌认知中的应用研究 被引量:25
20
作者 王仁武 宋家怡 陈川宝 《图书情报工作》 CSSCI 北大核心 2017年第22期6-12,共7页
[目的/意义]通过基于Word2vec的文本情感分析技术对某显示器品牌的产品与服务的在线评论进行分析,研究消费者的品牌认知和品牌口碑,为管理者建立更科学的品牌管理体系提供有针对性的建议。[方法/过程]首先利用自然语言处理技术,对评论... [目的/意义]通过基于Word2vec的文本情感分析技术对某显示器品牌的产品与服务的在线评论进行分析,研究消费者的品牌认知和品牌口碑,为管理者建立更科学的品牌管理体系提供有针对性的建议。[方法/过程]首先利用自然语言处理技术,对评论语料库进行预处理,结合深度学习的Word2vec词向量技术构建产品特征词和情感词词库,进一步构造情感概念对进行情感评分,并将其用于分析品牌产品特定特征的用户情感。[结果/结论]通过Word2vec构建的情感词典相较于传统方法(例如一般的情绪词表)进行情感分析,在情感分析的准确率上有所提高,再结合有效的情感概念对构造与情感评分,可以有效地理解用户的品牌认知。 展开更多
关键词 品牌认知 word2vec 情感分析 在线评论
原文传递
上一页 1 2 29 下一页 到第
使用帮助 返回顶部