期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
基于BERT模型的中文短文本分类算法 被引量:73
1
作者 段丹丹 唐加山 +1 位作者 温勇 袁克海 《计算机工程》 CAS CSCD 北大核心 2021年第1期79-86,共8页
针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入S... 针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。 展开更多
关键词 中文短文本分类 基于Transformer的双向编码器表示 Softmax回归模型 TextCNN模型 word2vec模型
下载PDF
基于主题和情绪相互作用的微博舆情演化研究——以“红黄蓝虐童事件”为例 被引量:33
2
作者 姜金贵 闫思琦 《情报杂志》 CSSCI 北大核心 2018年第12期118-123,共6页
[目的/意义]从内容层面深入挖掘微博舆情演化过程,根据主题和情绪的相互作用实时预测舆情变化,帮助政府及利益相关者快速地应对舆情。[方法/过程]以Python为工具采集并整理数据,运用Word2vec模型识别文章主题特征,利用情感词典以及情绪... [目的/意义]从内容层面深入挖掘微博舆情演化过程,根据主题和情绪的相互作用实时预测舆情变化,帮助政府及利益相关者快速地应对舆情。[方法/过程]以Python为工具采集并整理数据,运用Word2vec模型识别文章主题特征,利用情感词典以及情绪分析技术对文章评论进行情绪分析。[结果/结论]信息发布的及时性和透明性影响着微博舆情的发展趋势和网民的情绪,高涨的情绪则会促使主题内容倾向于网民的关注点,消息闭塞和极端情绪使得网民迫切希望了解真相,容易导致其轻信并传播不实消息。主题诱发情绪,情绪引导微博舆情演化进而催生主题,主题和情绪的相互作用推动了微博舆情各个阶段的演化。 展开更多
关键词 主题识别 word2vec模型 情绪分析 微博舆情
下载PDF
结合LDA与Word2vec的文本语义增强方法 被引量:20
3
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 word2vec模型 语义词向量 语义相似度 文本分类
下载PDF
基于BiLSTM神经网络的特征融合短文本分类算法 被引量:20
4
作者 和志强 杨建 罗长玲 《智能计算机与应用》 2019年第2期21-27,共7页
由于短文本自身具有词汇个数少且格式不规范的特点,造成神经网络输入矩阵存在特征稀疏、维度过高以及语义特征提取不充分等问题。为解决上述问题,提出一种基于双向长短时记忆神经网络的短文本分类算法(WTL-BiLSTM),该算法融合Word2vec、... 由于短文本自身具有词汇个数少且格式不规范的特点,造成神经网络输入矩阵存在特征稀疏、维度过高以及语义特征提取不充分等问题。为解决上述问题,提出一种基于双向长短时记忆神经网络的短文本分类算法(WTL-BiLSTM),该算法融合Word2vec、TF-IDF和LDA主题模型实现文本向量化,在获取短文本词义特征的同时,加入词汇重要程度特征和文本主题特征。并利用BiLSTM从前、后两个方向全面捕捉短文本语义特征,有效避免了RNN模型梯度爆炸和梯度消失问题。经实验验证,该算法能够有效解决短文本分类过程中出现的问题,相比于传统的短文本分类算法,分类准确率得到一定程度的提升。 展开更多
关键词 BiLSTM word2vec 模型 短文本分类
下载PDF
基于改进TextRank的铁路文献关键词抽取算法 被引量:16
5
作者 赵占芳 刘鹏鹏 李雪山 《北京交通大学学报》 CAS CSCD 北大核心 2021年第2期80-86,共7页
实现铁路行业海量的铁路科技信息资源有效地组织管理并提供智能化、专业化的检索和服务,已经成为科研人员迫切期望解决的问题.关键词自动抽取技术是实现信息的智能检索和标引分类的核心技术,本文提出了一种改进TextRank的关键词抽取算... 实现铁路行业海量的铁路科技信息资源有效地组织管理并提供智能化、专业化的检索和服务,已经成为科研人员迫切期望解决的问题.关键词自动抽取技术是实现信息的智能检索和标引分类的核心技术,本文提出了一种改进TextRank的关键词抽取算法应用于铁路文献关键词的抽取,该算法融合多个特征因素改进词汇节点的初始权重设置,并利用Word2Vec训练的词向量表征改进词节点间的转移概率.实验结果表明:本文所提出的关键词抽取算法相对于经典的TextRank和TF-IDF算法在准确率,召回率以及F值上都有较大的提升.与TextRank相比,F值提升了13.9%. 展开更多
关键词 抽取 word2vec模型 TextRank算法
下载PDF
基于Gensim的摘要自动生成算法研究与实现 被引量:15
6
作者 肖元君 吴国文 《计算机应用与软件》 北大核心 2019年第12期131-136,共6页
为了让计算机能够对中文文章提取摘要,提出一种中文摘要自动生成算法。该算法基于Gensim自然语言处理框架实现,并在原有的基础上做出了改进,算法主要分为两个阶段。关键句生成阶段,对中文语料进行预处理,并放入Gensim框架中的Word2vec... 为了让计算机能够对中文文章提取摘要,提出一种中文摘要自动生成算法。该算法基于Gensim自然语言处理框架实现,并在原有的基础上做出了改进,算法主要分为两个阶段。关键句生成阶段,对中文语料进行预处理,并放入Gensim框架中的Word2vec模型进行训练,修改TextRank算法使其能够接受词向量的输入生成无向图从而找到关键句;摘要生成框架构建阶段,根据文章结构与Gensim框架中的LDA主题模型所提取的关键词,赋予句子不同的权值,将分数高的几个句子组合生成文章摘要。Rouge摘要评测结果表明,该算法生成的摘要能够包含文章关键信息,相比于其他自动文摘算法,句意通顺程度得到了提升。 展开更多
关键词 Gensim框架 word2vec模型 TextRank算法 摘要生成框架 LDA主题模型 Rouge摘要评测
下载PDF
基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究 被引量:13
7
作者 刘奇飞 沈炜域 《情报探索》 2018年第6期22-27,共6页
[目的/意义]旨在为时政类新闻关键词抽取提供参考。[方法/过程]基于融合Word2Vec和TextRank算法,在研究时政类新闻文本特征基础上,利用政治重点词库修订文本词语的初始权重,结合上下文关系确定词语之间的连接关系,并基于Word2Vec模型构... [目的/意义]旨在为时政类新闻关键词抽取提供参考。[方法/过程]基于融合Word2Vec和TextRank算法,在研究时政类新闻文本特征基础上,利用政治重点词库修订文本词语的初始权重,结合上下文关系确定词语之间的连接关系,并基于Word2Vec模型构建概率转移矩阵,提出改进的Word2Vec和TextRank算法。[结果/结论 ]运用改进的Word2Vec和TextRank算法对时政类新闻关键词进行抽取,其准确率、召回率和F值均优于传统TextRank算法及普通的融合Word2Vec和TextRank算法,抽取效果更好。 展开更多
关键词 时政新闻 关键词抽取 TextRank算法 word2vec模型 词图
下载PDF
基于扩展短文本词特征向量的分类研究 被引量:10
8
作者 孟涛 王诚 《计算机技术与发展》 2019年第4期57-62,共6页
由于短文本的文档长度较短,短文本中词语的共现信息非常匮乏,造成短文本信息稀疏性问题。信息稀疏性也成为了传统主题模型在短文本上难以取得突破性进展的瓶颈之一。针对短文本分类,充分利用短文本中的每一个词语并解决其稀疏性成为关... 由于短文本的文档长度较短,短文本中词语的共现信息非常匮乏,造成短文本信息稀疏性问题。信息稀疏性也成为了传统主题模型在短文本上难以取得突破性进展的瓶颈之一。针对短文本分类,充分利用短文本中的每一个词语并解决其稀疏性成为关键。为了解决这一问题,基于Word2vec模型对短文本进行词嵌入扩展以解决其稀疏性,并将词向量转换成概率语义分布来测量语义关联性;针对短文本扩展后的特征向量,利用改进后的特征权重算法并引入语义相关度去处理扩展后的词特征向量。该方法可以区分出扩展后的短文本中词的重要程度,以便获得更准确的语义相关性。短文本分类研究采用KNN算法分类,实验结果表明,通过在外部语料集上学习得到的语义相关性扩展来处理短文本特征,可以有效提高短文本的分类效果。 展开更多
关键词 短文本 word2vec模型 词嵌入 改进后的特征权重算法 语义相关度
下载PDF
民航不安全事件报告危险源识别模型 被引量:10
9
作者 王洁宁 张聪俊 张钰涵 《安全与环境学报》 CAS CSCD 北大核心 2020年第1期186-192,共7页
为了识别民航不安全事件的发生原因,从民航不安全事件报告出发,提出了一种基于LDA主题模型和Word2Vec模型的民航不安全事件报告危险源识别模型。首先,构建危险源标签分类表,选取民航不安全事件报告与Wiki中文数据库作为数据源,然后利用... 为了识别民航不安全事件的发生原因,从民航不安全事件报告出发,提出了一种基于LDA主题模型和Word2Vec模型的民航不安全事件报告危险源识别模型。首先,构建危险源标签分类表,选取民航不安全事件报告与Wiki中文数据库作为数据源,然后利用LDA主题模型得出民航不安全事件报告的主题概率分布与词概率分布,最后利用Wiki中文数据库训练Word2Vec模型得到词向量,进而计算文档主题与不同危险源标签之间的相似度,得出民航不安全事件报告的危险源分类。结果表明,该模型的精准率为77.7%、召回率为86.8%、F为82.0%,能够有效识别各民航不安全事件报告的危险源。 展开更多
关键词 安全管理工程 民航不安全事件报告 危险源识别 LDA主题模型 word2vec模型 相似度
下载PDF
融合深度学习与机器学习的在线评论情感分析 被引量:10
10
作者 刘晓彤 田大钢 《软件导刊》 2019年第2期1-4,共4页
情感分析可以帮助商家了解客户喜好从而生产出满意度更高的商品,也可以监督网上舆论等。为此,基于传统机器学习方法,加入深度学习模块,对在线评论进行情感分析与对比。在词向量训练模块中引入Word2vec模型,用高维向量表示词语、句子,既... 情感分析可以帮助商家了解客户喜好从而生产出满意度更高的商品,也可以监督网上舆论等。为此,基于传统机器学习方法,加入深度学习模块,对在线评论进行情感分析与对比。在词向量训练模块中引入Word2vec模型,用高维向量表示词语、句子,既可防止过度拟合问题,又可减少训练参数个数,提高训练效率。将得到的句向量作为输入代入机器学习模型(MLP、SVM、朴素贝叶斯等)与深度学习模型(CNN、LSTM、BILSTM等),比较实验结果,提出优化方向。结果表明,基于深度学习的情感分析模型准确率明显高于单一机器学习模型,但是深度学习需要大量语料,对实验机器要求也较高,很难完全展现其魅力。 展开更多
关键词 情感分析 深度学习 机器学习 word2vec模型
下载PDF
基于医患交互数据的在线医生推荐研究 被引量:10
11
作者 熊回香 李晓敏 李建玲 《情报理论与实践》 CSSCI 北大核心 2020年第8期159-166,共8页
[目的/意义]对医患交互过程中产生的文本数据进行挖掘分析,构建基于医患交互数据的医生推荐模型。[方法/过程]对患者咨询文本,利用word2vec模型和余弦相似度计算患者与患者间相似度,形成基于相似患者的医生推荐集;对医生被咨询文本,利用... [目的/意义]对医患交互过程中产生的文本数据进行挖掘分析,构建基于医患交互数据的医生推荐模型。[方法/过程]对患者咨询文本,利用word2vec模型和余弦相似度计算患者与患者间相似度,形成基于相似患者的医生推荐集;对医生被咨询文本,利用TF-IDF+word2vec模型和余弦相似度计算医生与医生间被咨询文本相似度,对医生积累的临床经验,利用文本相似度计算方法计算医生与医生间经验相似度,两部分医生相似度求和取平均形成基于相似医生的医生推荐集。融合基于相似患者的推荐集和基于相似医生的推荐集实现医生推荐。[结果/结论]以"好大夫在线"为例对模型进行验证,并随机选择11位患者进行模型测试,结果表明本文提出的模型推荐效果较好,能够帮助患者在所选医生没有可用资源时选择合适的医生,减少患者时间和医生资源的浪费。[局限]主要选取的是文本型数据,对于网站其他类型的数据并未涉及。 展开更多
关键词 数据挖掘 文本相似度 word2vec模型 患者咨询文本 医生推荐
原文传递
word2vec-ACV:OOV语境含义的词向量生成模型 被引量:7
12
作者 王永贵 郑泽 李玥 《计算机应用研究》 CSCD 北大核心 2019年第6期1623-1628,共6页
针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵... 针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(global ACV)和局部平均上下文词向量(local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵,并将word2vec-ACV模型和word2vec模型分别进行类比任务实验和命名实体识别任务实验。实验结果表明,word2vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。 展开更多
关键词 word2vec模型 词向量 共现矩阵 平均上下文词向量
下载PDF
基于LDA2Vec-BERT的新兴技术主题多维指标识别与演化分析研究——以颠覆性技术领域:区块链为例
13
作者 胡泽文 王梦雅 韩雅蓉 《现代情报》 北大核心 2024年第9期42-58,共17页
[目的/意义]挖掘并可视化全球性颠覆性技术:区块链领域发明专利文献中隐含的细粒度新兴和热点技术主题及其演化差异,能够为领域从业者、科技政策制定者、管理部门和科技研发人员提供参考和借鉴。[方法/过程]以全球区块链领域的专利文献... [目的/意义]挖掘并可视化全球性颠覆性技术:区块链领域发明专利文献中隐含的细粒度新兴和热点技术主题及其演化差异,能够为领域从业者、科技政策制定者、管理部门和科技研发人员提供参考和借鉴。[方法/过程]以全球区块链领域的专利文献为基础,按时序划分不同的时间切片,综合运用LDA主题模型、Word2vec词向量模型和BERT语言模型构建区块链领域技术主题挖掘模型,同时通过构建识别新兴和热点技术主题的四维指标:主题热度,主题族群,主题技术性和主题新颖度,识别出区块链领域细粒度新兴和热点技术主题,并结合主题演化模型,对新兴和热点技术主题差异进行演化分析。[结果/结论]研究发现,LDA2Vec-BERT主题识别与演化模型能够基于区块链领域海量专利文献标题和摘要识别出领域的新兴技术主题和热点技术主题,并直观清晰展示出区块链领域细粒度技术主题的演化趋势和特征,发现区块链技术形成从构架研究到应用研究的发展趋势。通过模型结果对比可以发现,识别结果科学合理,且模型的精准率、召回率、F1值均高于其他识别模型,证明构建的集成模型能有效识别颠覆性技术领域细粒度新兴和热点主题。 展开更多
关键词 区块链专利 LDA主题模型 word2vec模型 BERT模型 新兴技术主题 热点技术主题 主题识别 主题演化
下载PDF
基于关系触发词与单层GRU模型的关系抽取方法 被引量:6
14
作者 王磊 刘露 +2 位作者 牛亮 胡封晔 彭涛 《吉林大学学报(理学版)》 CAS 北大核心 2020年第1期95-103,共9页
基于关系触发词与单层门控循环单元模型进行关系抽取,以降低关系抽取模型结构的复杂度,并提高模型的训练效率.通过计算单词的依存距离与序列距离得到关系触发词,利用单层门控循环单元模型进行关系抽取,并在SemEval2010Task8数据集上进... 基于关系触发词与单层门控循环单元模型进行关系抽取,以降低关系抽取模型结构的复杂度,并提高模型的训练效率.通过计算单词的依存距离与序列距离得到关系触发词,利用单层门控循环单元模型进行关系抽取,并在SemEval2010Task8数据集上进行实验.实验结果表明,该方法能有效提取出关系触发词,并具有较高的关系抽取准确率. 展开更多
关键词 关系抽取 关系触发词 句法依存分析 word2vec模型 门控循环单元
下载PDF
侵权诉讼背景下的专利无效宣告影响因素研究
15
作者 彭启宁 柳炳祥 +2 位作者 付振康 冯广宇 贝汶瑜 《科技情报研究》 2024年第1期75-89,共15页
[目的/意义]以侵权专利为切入点,探究不同因素对专利技术侵权无效宣告倾向的影响机制,对比分析同一领域不同的侵权主题下无效宣告影响因素存在的差异。[方法/过程]文章首先利用LDA主题模型对所选新兴产业领域的侵权主题进行细分,了解该... [目的/意义]以侵权专利为切入点,探究不同因素对专利技术侵权无效宣告倾向的影响机制,对比分析同一领域不同的侵权主题下无效宣告影响因素存在的差异。[方法/过程]文章首先利用LDA主题模型对所选新兴产业领域的侵权主题进行细分,了解该领域侵权专利的不同侵权主题和侵权主题词;其次,利用统计相关性模型计算在不同侵权分类主题下的各类数据指标,对比分析无效宣告倾向的相关性;最后,通过构建多特征融合的随机森林模型,对不同侵权分类主题下的专利分别进行无效宣告分类的识别训练,并利用可解释机器学习中的LIME模型,对模型中计量指标特征影响程度进行解释。[结果/结论]根据主题分类后的相关性分析发现,不同主题分类下所选取的特征指标,不但在侵权后判定是否无效的整体影响程度各不相同,而且在不同分类结果的影响因素和影响程度排序也不相同,此外,不同分类主题所依赖的分类规则和分类指标存在显著的差异。 展开更多
关键词 LDA模型 随机森林模型 专利无效 word2vec模型 可解释机器学习
下载PDF
基于LDA和Word2Vec模型的学位论文评阅意见主题挖掘与分析
16
作者 王孟 苏进城 陈志德 《福建师范大学学报(自然科学版)》 CAS 北大核心 2024年第5期41-51,共11页
选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将... 选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将评阅意见转化为主题分布向量;其次,结合Word2Vec模型将评阅意见的关键词转化为向量表达;最后,采用TextRank方法提取关键词,以揭示评阅专家的关注核心主题。实验结果表明,所提方法能为高校管理人员提供切实有效的分析工具,有助于他们更好地分析总结评阅意见,同时也为硕士研究生撰写高质量学位论文提供有益借鉴。 展开更多
关键词 硕士学位论文 自然语言处理 LDA模型 word2vec模型 TextRank方法
下载PDF
基于word2vec和LDA的文本主题 被引量:6
17
作者 徐守坤 周佳 +1 位作者 李宁 石林 《计算机工程与设计》 北大核心 2018年第9期2764-2769,共6页
将word2vec和LDA算法相结合,对文本主题进行提取研究。通过已有的分词工具实现文本分词,提取文本中的词汇;对语料库依据LDA主题模型进行建模,提取主题相关词汇作为初始主题词集;依据word2vec模型提取与初始主题词集语义相似的词汇,将初... 将word2vec和LDA算法相结合,对文本主题进行提取研究。通过已有的分词工具实现文本分词,提取文本中的词汇;对语料库依据LDA主题模型进行建模,提取主题相关词汇作为初始主题词集;依据word2vec模型提取与初始主题词集语义相似的词汇,将初始主题词汇之间的相似度和向量邻接关系按照权重不同重新分配,改进Gibbs抽样,对LDA进行改进,提高主题挖掘的准确性和稳定性。实验结果表明,当训练语料分布合理时,经过LDA和word2vec的有效结合,主题词抽取效果有所提高,验证了该方法的可行性。 展开更多
关键词 自然语言处理 LDA模型 主题挖掘 word2vec模型 GIBBS抽样
下载PDF
基于word2vec的配电网恶意控制指令检测算法 被引量:6
18
作者 郑佩祥 陈彬 +1 位作者 卢昕 徐文渊 《计算机工程》 CAS CSCD 北大核心 2019年第4期119-123,129,共6页
现有的配电网恶意控制指令检测方法基于电力系统运行规则,但规则维护困难、规则匹配耗时较长。根据配电网上行测量信息和下行控制指令之间存在的上下文一致性关系,提出基于word2vec的恶意控制指令检测算法。在配电网仿真平台模拟各类工... 现有的配电网恶意控制指令检测方法基于电力系统运行规则,但规则维护困难、规则匹配耗时较长。根据配电网上行测量信息和下行控制指令之间存在的上下文一致性关系,提出基于word2vec的恶意控制指令检测算法。在配电网仿真平台模拟各类工况并获取标注数据集,结果表明,该算法能够取得100%的精确度和87.2%的召回率,具有较高的检测精度。 展开更多
关键词 配电网 恶意控制指令 上下文 word2vec模型 异常检测
下载PDF
全民健身背景下用户在线健身需求体系构建与分析——基于Word2Vec-IPA模型的研究
19
作者 郭家欣 崔乐泉 《北京体育大学学报》 北大核心 2024年第4期131-143,共13页
精准识别并深入分析健身App用户需求,对于推动健身App发展和优化大众在线健身体验具有重要价值。基于健身App在线评论数据,运用Word2Vec模型和K-means++算法精准识别用户在线健身需求,构建在线健身需求体系,并结合IPA模型分析各需求维... 精准识别并深入分析健身App用户需求,对于推动健身App发展和优化大众在线健身体验具有重要价值。基于健身App在线评论数据,运用Word2Vec模型和K-means++算法精准识别用户在线健身需求,构建在线健身需求体系,并结合IPA模型分析各需求维度关注度与满意度及两者间关系。结果显示,在线健身需求体系由4个维度构成:服务(基本功能属性/付费会员体验)、信息(运动数据记录/健身信息资源)、交互(社会交流互动/情感交流反馈)及技术(页面布局设计/技术设备支持)。其中,用户高度关注基本功能属性和健身信息资源且满意度较高,应采取优势保持策略;运动数据记录和设备技术支持满意度较低,但关注度较高,应重点优化;其他子维度的关注度较低,建议采取低优先改进策略。研究解决了以往用户在线健身需求研究的主观性和片面性问题,识别了市场与真实需求之间的对接不足,为在线健身产业优化方向提供了指导。 展开更多
关键词 在线评论 健身App word2vec模型 IPA模型 需求体系
原文传递
多特征融合的专利功效短语抽取
20
作者 游新冬 赵颖 +1 位作者 刘佳琦 吕学强 《计算机工程与设计》 北大核心 2024年第5期1413-1419,共7页
为提高专利功效短语抽取的准确率和召回率,保障专利布局等研究工作的高质量进行,提出一种融合多特征的专利功效短语抽取模型。基于Bert-BiLSTM-CRF的整体框架,利用Bert模型对文本进行向量化,融合偏旁部首、五笔、词长+词性等特征输入到B... 为提高专利功效短语抽取的准确率和召回率,保障专利布局等研究工作的高质量进行,提出一种融合多特征的专利功效短语抽取模型。基于Bert-BiLSTM-CRF的整体框架,利用Bert模型对文本进行向量化,融合偏旁部首、五笔、词长+词性等特征输入到BiLSTM或Transformer进行编码,使用CRF解码得到对应输入的标签序列,得到专利功效短语。实验采用新能源汽车领域的专利文本作为训练数据,尝试组合不同的特征进行实验,实验结果表明,所提模型在准确率、召回率、F1值上均取得了明显提升,验证了多特征融合在功效短语抽取任务上的有效性。 展开更多
关键词 多特征融合 专利功效短语 深度学习 词语抽取 双向长短期记忆模型 条件随机场模型 词向量模型
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部