期刊文献+
共找到105篇文章
< 1 2 6 >
每页显示 20 50 100
基于LDA主题模型和生命周期理论的科学文献主题挖掘 被引量:46
1
作者 关鹏 王曰芬 《情报学报》 CSSCI 北大核心 2015年第3期286-299,共14页
科学文献主题挖掘可以帮助科研人员快速准确的捕捉学科主题的脉络结构,跟踪主题演化发展,并对学科发展趋势做出预测。本文将LDA(Latent Dirichlet Allocation,潜在狄利克雷分配)主题模型与科学文献生命周期理论结合起来,提出一种... 科学文献主题挖掘可以帮助科研人员快速准确的捕捉学科主题的脉络结构,跟踪主题演化发展,并对学科发展趋势做出预测。本文将LDA(Latent Dirichlet Allocation,潜在狄利克雷分配)主题模型与科学文献生命周期理论结合起来,提出一种挖掘学科领域生命周期语义信息的方法。为了体现学科领域研究主题的动态语义信息,将科学文献按照时间特征划分,利用文献信息增长规律刻画学科领域生命周期,在此基础上,实现学科生命周期不同阶段、不同层次的主题抽取和主题演化。在由国内新能源领域的科学文献构成的语料库上的实验结果表明,该方法能够监测和追踪新能源研究热点和发展态势,能够为科学研究和科技政策制定提供决策支持。 展开更多
关键词 LDA 生命周期 理论主题 抽取主题 演化新能源
下载PDF
基于LDA的网络评论主题发现研究 被引量:39
2
作者 阮光册 《情报杂志》 CSSCI 北大核心 2014年第3期161-164,共4页
网络用户评论的主题发现研究是Web2.0时代信息分析的重要方式,如何从冗杂的用户评论中分析出有价值的信息是研究的热点。针对网络用户评论信息内容短、信息量少的特征,提出基于LDA(latent Dirichlet allocation)主题发现模型结合HowNet... 网络用户评论的主题发现研究是Web2.0时代信息分析的重要方式,如何从冗杂的用户评论中分析出有价值的信息是研究的热点。针对网络用户评论信息内容短、信息量少的特征,提出基于LDA(latent Dirichlet allocation)主题发现模型结合HowNet知识库进行信息分析的方法,对网络评论进行主题发现的研究。首先通过评论文本的词性标注、语义分析,形成语料库,然后利用HowNet对语料库中的词项进行语义相似度的计算,完成语义去重、合并,最后通过LDA主题模型将用户评论的内容映射到主题上,实现对用户评论信息主题的发现。 展开更多
关键词 网络评论 主题发现 网络信息分析 LDA(latentDirichletallocation) 语义分析 文本挖掘
下载PDF
基于频繁项集的海量短文本聚类与主题抽取 被引量:31
3
作者 彭敏 黄佳佳 +2 位作者 朱佳晖 黄济民 刘纪平 《计算机研究与发展》 EI CSCD 北大核心 2015年第9期1941-1953,共13页
社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE(short text clustering&am... 社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE(short text clustering&topic extraction)框架.首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计基于相似度的频繁项集过滤策略SIF(similarity-based itemset filtering),可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法CSA_SC(clusters self-adaptive spectral clustering),实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类.基于100万条新浪微博文本的实验结果表明。 展开更多
关键词 海量 短文本 频繁项集 聚类 主题抽取
下载PDF
基于改进LDA的在线医疗评论主题挖掘 被引量:25
4
作者 高慧颖 刘嘉唯 杨淑昕 《北京理工大学学报》 EI CAS CSCD 北大核心 2019年第4期427-434,共8页
对利用主题模型挖掘医疗服务主题进行了深入研究,针对LDA主题模型用于医疗评论主题挖掘中存在的语义稀疏、共现信息不足等问题,提出一种基于词共现分析与LDA主题模型结合的CO-LDA模型.首先使用词共现分析方法对评论语料库进行分析,得到... 对利用主题模型挖掘医疗服务主题进行了深入研究,针对LDA主题模型用于医疗评论主题挖掘中存在的语义稀疏、共现信息不足等问题,提出一种基于词共现分析与LDA主题模型结合的CO-LDA模型.首先使用词共现分析方法对评论语料库进行分析,得到词共现矩阵.其次利用LDA主题模型对语料评论进行建模表示,挖掘出患者对医疗服务的关注点.基于平均最小JS距离、平均肯德尔等级相关系数τ_b及平均TF-IDF 3个指标对比CO-LDA模型与传统LDA模型在医疗评论主题挖掘中的应用效果,实验最终表明CO-LDA模型识别主题的一致性和主题质量优于LDA模型.将实验结果与中国《医院评价标准》进行对比,一致性较高,说明基于CO-LDA的在线医疗评论主题挖掘方法的有效性. 展开更多
关键词 主题抽取 医疗服务 语义稀疏 CO-LDA 词共现分析
下载PDF
基于主题挖掘技术的文本情感分析综述 被引量:24
5
作者 朱晓霞 宋嘉欣 张晓缇 《情报理论与实践》 CSSCI 北大核心 2019年第11期156-163,共8页
[目的/意义]在互联网数据呈爆炸式增长的今天,如何提高情感分析的效率和准确性,从中挖掘更细粒度、更深层次的情感内涵成为学者们研究的热点。随着主题挖掘技术在处理大规模文本上所表现出的独特优势,越来越多的学者开始倾向于使用主题... [目的/意义]在互联网数据呈爆炸式增长的今天,如何提高情感分析的效率和准确性,从中挖掘更细粒度、更深层次的情感内涵成为学者们研究的热点。随着主题挖掘技术在处理大规模文本上所表现出的独特优势,越来越多的学者开始倾向于使用主题抽取技术去研究情感分析问题。鉴于此,文章对利用主题挖掘技术进行情感分析研究的相关文献进行分析和整理,为后续研究提供一定的借鉴价值。[方法/过程]围绕传统情感分析-主题挖掘技术-基于主题的文本情感分析这一主线展开,整理归纳国内外相关文献,并做必要评述。最后,对目前的研究困境和未来发展趋势进行总结与展望。[结果/结论]主要点明了传统情感分析中存在的问题和难点,据此提出将主题挖掘技术引入到情感分析研究中来,并将其划分为主题信息挖掘、情感倾向分析、情感演化分析和性能评价4项任务,对每一阶段任务的研究现状进行总结,为后续学者进行深入研究奠定理论基础。 展开更多
关键词 文本情感分析 主题抽取 主题情感信息挖掘 情感演化分析
原文传递
采用LDA主题模型的国内知识流研究结构探讨:以学科分类主题抽取为视角 被引量:22
6
作者 王曰芬 傅柱 陈必坤 《现代图书情报技术》 CSSCI 2016年第4期8-19,共12页
【目的】利用LDA主题模型探索分类视角下的主题提取与分布状态,全面深入地揭示学科知识结构和热点。【方法】以国内知识流领域为研究对象,选取CNKI和万方数据库中知识流相关文献为数据源,利用中图分类号将知识流研究的文献分成11个学科... 【目的】利用LDA主题模型探索分类视角下的主题提取与分布状态,全面深入地揭示学科知识结构和热点。【方法】以国内知识流领域为研究对象,选取CNKI和万方数据库中知识流相关文献为数据源,利用中图分类号将知识流研究的文献分成11个学科,借助LDA主题模型分别对这11个学科所包含的文献进行主题抽取,挖掘出不同学科中所包含的20个热点主题。【结果】分析20个热点主题,得到11个不同学科的热点主题内容及其所揭示的知识点。【局限】该方法没有同其他学科主题挖掘方法进行对比,分析得到的国内知识流研究热点也没有同已有相关文献中分析出的该领域热点进行对照。【结论】该方法能够更全面和深入地挖掘学科知识结构和研究热点。 展开更多
关键词 知识流 LDA 主题抽取 学科分类 知识结构 研究热点
原文传递
基于主题聚类的学科研究热点及其趋势监测方法 被引量:20
7
作者 章成志 梁勇 《情报学报》 CSSCI 北大核心 2010年第2期342-349,共8页
常规的学科热点及趋势监测方法存在监测成本高、监测信息相对滞后等问题。因此需要寻求较低成本、较快速的方法进行学科热点和趋势的监测,以保证监测系统提供信息的时效性。本文以图书情报档案学科为例,依据学科学术论文全文,从主题... 常规的学科热点及趋势监测方法存在监测成本高、监测信息相对滞后等问题。因此需要寻求较低成本、较快速的方法进行学科热点和趋势的监测,以保证监测系统提供信息的时效性。本文以图书情报档案学科为例,依据学科学术论文全文,从主题角度对学术论文集合进行全面分析,即:采用主题聚类方法,对包括时间信息的学科学术全文进行主题分析与主题聚类,归纳出某一特定学科的研究热点和这些热点的发展趋势。实验结果表明,基于主题聚类的学科热点及其趋势监测方法,其监测结果在很大程度上接近于常规方法的监测结果,但基于主题聚类的监测方法,在监测成本和监测信息时效方面得到改善。 展开更多
关键词 学科热点监测 主题聚类 主题抽取 文本聚类
下载PDF
面向微博热点事件的话题检测及表述方法研究 被引量:15
8
作者 周炜翔 张仰森 张良 《计算机应用研究》 CSCD 北大核心 2019年第12期3565-3569,3578,共6页
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采... 针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。 展开更多
关键词 文本聚类 IDLDA-ITextRank模型 话题抽取 话题表述
下载PDF
基于改进K-means聚类的在线新闻评论主题抽取 被引量:15
9
作者 夏火松 李保国 杨培 《情报学报》 CSSCI 北大核心 2016年第1期55-65,共11页
新闻评论反映民众对新闻事件的观点,抽取评论主题,对用户、企业、政府都具有很高的情报分析价值。基于K-means聚类的主题挖掘算法应用到新闻评论中时,在欧氏距离下,如果使用最大距离法选初始点则会聚成一大类。为解决这个问题,论文首先... 新闻评论反映民众对新闻事件的观点,抽取评论主题,对用户、企业、政府都具有很高的情报分析价值。基于K-means聚类的主题挖掘算法应用到新闻评论中时,在欧氏距离下,如果使用最大距离法选初始点则会聚成一大类。为解决这个问题,论文首先在预处理阶段增加同义词替换和自动构建领域词典的部分,改善了数据稀疏性和高维性。其次,提出了K-means改进算法,用隐藏长评论-最大距离法选初始点,解决了初始点多为离群点的问题,用方差拐点确定K值,解决了预先设定聚类个数的问题,实验发现了先用BW权重选初始点,再用新提出的BW-DF权重聚类的效果最好。最后,将改进算法与原算法的聚类效果比较,实验结果表明,改进算法准确率高,抽取新闻评论主题的效果明显。 展开更多
关键词 在线新闻评论 K—means聚类改进 主题抽取 同义词替换 分词领域词典
下载PDF
基于学习者在线评论文本的MOOC质量评判——以“中国大学MOOC”网的在线评论文本为例 被引量:15
10
作者 张新香 段燕红 《现代教育技术》 CSSCI 北大核心 2020年第9期56-63,共8页
研究在线评论文本,能从学习者角度科学提炼MOOC质量的影响因素,客观评判MOOC的教学效果。基于此,文章提出了基于学习者在线评论文本的MOOC质量评判新思路:按照MOOC质量评判的流程框架,以“中国大学MOOC”网的在线评论文本为例,基于灰色... 研究在线评论文本,能从学习者角度科学提炼MOOC质量的影响因素,客观评判MOOC的教学效果。基于此,文章提出了基于学习者在线评论文本的MOOC质量评判新思路:按照MOOC质量评判的流程框架,以“中国大学MOOC”网的在线评论文本为例,基于灰色关联分析实施MOOC质量评判,并选取10门案例课程检验评判效果。实验结果表明:“视频制作”、“课程内容”、“知识量”、“教学风格”、“学习感受”这5大主题影响学习者对MOOC质量的评判;基于学习者在线评论文本的MOOC质量评判结果与事实基本相符,具有较好的精确度和可操作性,能合理地对课程质量进行评判和排序,对MOOC课程的建设和改善具有重要意义。 展开更多
关键词 MOOC 质量评判 在线评论文本 主题提取 灰色关联分析
下载PDF
以分类主题抽取为视角的学科主题挖掘——基于LDA模型的国外知识流研究结构探讨 被引量:12
11
作者 傅柱 王曰芬 关鹏 《情报理论与实践》 CSSCI 北大核心 2016年第8期96-102,共7页
[目的]为了能够更为全面地探索和揭示研究领域的知识结构和热点主题,文章提出基于分类视角的LDA主题抽取方法。[方法]以国外知识流领域为研究对象,根据研究方向将知识流的相关文献分为5类。利用LDA主题模型分别对分类后的文献集进行主... [目的]为了能够更为全面地探索和揭示研究领域的知识结构和热点主题,文章提出基于分类视角的LDA主题抽取方法。[方法]以国外知识流领域为研究对象,根据研究方向将知识流的相关文献分为5类。利用LDA主题模型分别对分类后的文献集进行主题抽取,筛选得到不同研究方向下的11个热点主题,并深入分析不同研究方向下热点主题所揭示的知识点。[结果]实验结果表明,基于分类视角的LDA主题抽取方法能够较为全面和细致地挖掘研究领域的学科主题和研究热点。[局限]所提的方法未能与其他主题挖掘方法进行对比,研究结果也未与现有文献中分析出的知识流领域研究热点进行对照。 展开更多
关键词 知识流 LDA模型 主题抽取 知识结构 研究热点
原文传递
基于主题-情感融合分析的突发公共卫生事件网络舆情演化研究 被引量:11
12
作者 杨嘉韵 张慧明 《情报探索》 2021年第8期18-28,共11页
[目的/意义]针对突发公共卫生事件,借助自然语言处理技术,快速挖掘舆论热点和舆情演化特征,提升政府部门的应急管理能力。[方法/过程]将新冠肺炎疫情作为研究案例,首先搜集了疫情相关的微博文本,在划分为潜伏期、爆发期、衰退期三个阶... [目的/意义]针对突发公共卫生事件,借助自然语言处理技术,快速挖掘舆论热点和舆情演化特征,提升政府部门的应急管理能力。[方法/过程]将新冠肺炎疫情作为研究案例,首先搜集了疫情相关的微博文本,在划分为潜伏期、爆发期、衰退期三个阶段的基础上,使用LDA主题模型和语义规则构建的方法进行主题-情感的融合分析,并结合疫情期间的新闻事件探究了网络舆情的情感演化情况和负面舆论的关注热点。[结果/结论]研究发现,关于疫情的负面情绪微博大多集中在前中期,且主要来源于对疫情信息的不确定性;而后期积极态度随国内疫情好转而成为主流。此外,民众对新冠肺炎的传播、成因、境外输入和官方信息发布等子话题的情绪起伏较大。 展开更多
关键词 网络舆情 主题提取 情感分析 LDA 情感词典
下载PDF
基于百度百科与文本分类的网络文本语义主题抽取方法 被引量:9
13
作者 陈叶旺 王华珍 +2 位作者 李海波 钟必能 陈锻生 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2605-2610,共6页
网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文... 网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文本映射到侯选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题.最后提出根据语义离散度确定最终语义主题.在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能. 展开更多
关键词 百度百科 语义主题 主题抽取 语义离散度
下载PDF
基于概率主题模型的京津冀协同发展研究主题演化分析 被引量:7
14
作者 赵杰 李海峰 李纯果 《科学技术与工程》 北大核心 2019年第36期225-234,共10页
京津冀协同发展是当前各学科领域共同关注的热点话题。为深入了解京津冀协同发展话题的研究趋势,以2009~2019年中国知网收录的14235篇与京津冀协同发展相关的期刊论文为研究对象,采用概率主题模型方法,提出以困惑度、主题平均相似度为... 京津冀协同发展是当前各学科领域共同关注的热点话题。为深入了解京津冀协同发展话题的研究趋势,以2009~2019年中国知网收录的14235篇与京津冀协同发展相关的期刊论文为研究对象,采用概率主题模型方法,提出以困惑度、主题平均相似度为指标确定最优主题数,结合文献发表时间挖掘期刊论文潜在主题,从主题强度和主题相似度等多个角度分析主题演化趋势。通过数据分析,挖掘10个潜在主题,生成主题强度年度变化趋势,构建主题内容演化路径,分析主题演化规律。以期为深刻认识京津冀协同发展和科学决策提供理论依据。 展开更多
关键词 京津冀协同发展 概率主题模型 主题提取 主题演化
下载PDF
基于微博标签和LDA的微博主题提取算法 被引量:8
15
作者 邓丹君 姚莉 《计算机与数字工程》 2017年第5期954-957,共4页
论文根据微博文本所具有的特点,将微博文本具有的三种的特殊符号:"@"、"//"和"#"纳入微博主题提取的分析中。在传统的LDA模型的基础上,建立一种微博标签的LDA模型,该模型考虑到微博的主题、转发的微博、... 论文根据微博文本所具有的特点,将微博文本具有的三种的特殊符号:"@"、"//"和"#"纳入微博主题提取的分析中。在传统的LDA模型的基础上,建立一种微博标签的LDA模型,该模型考虑到微博的主题、转发的微博、微博的评论等内容,增强对微博主题的提取的准确性。实验结果表明,论文提出的算法对于新浪微博的主题提取的效果良好。 展开更多
关键词 微博 主题提取 LDA 微博标签
下载PDF
Topic discovery and evolution in scientific literature based on content and citations 被引量:5
16
作者 Hou-kui ZHOU Hui-min YU Roland HU 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2017年第10期1511-1524,共14页
Researchers across the globe have been increasingly interested in the manner in which important research topics evolve over time within the corpus of scientific literature. In a dataset of scientific articles, each do... Researchers across the globe have been increasingly interested in the manner in which important research topics evolve over time within the corpus of scientific literature. In a dataset of scientific articles, each document can be considered to comprise both the words of the document itself and its citations of other documents. In this paper, we propose a citationcontent-latent Dirichlet allocation(LDA) topic discovery method that accounts for both document citation relations and the content of the document itself via a probabilistic generative model. The citation-content-LDA topic model exploits a two-level topic model that includes the citation information for ‘father' topics and text information for sub-topics. The model parameters are estimated by a collapsed Gibbs sampling algorithm. We also propose a topic evolution algorithm that runs in two steps: topic segmentation and topic dependency relation calculation. We have tested the proposed citation-content-LDA model and topic evolution algorithm on two online datasets, IEEE Transactions on Pattern Analysis and Machine Intelligence(PAMI) and IEEE Computer Society(CS), to demonstrate that our algorithm effectively discovers important topics and reflects the topic evolution of important research themes. According to our evaluation metrics, citation-content-LDA outperforms both content-LDA and citation-LDA. 展开更多
关键词 topic extraction topic evolution Evaluation method
原文传递
基于CSToT模型的科技文献主题发现与演化研究 被引量:6
17
作者 何伟林 奉国和 谢红玲 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第11期64-72,共9页
[目的]分析某研究领域科技文献在一段时间内的主题结构并追踪其变化。[方法]基于改进的主题模型CSToT(ContentSimilarity-TopicsoverTime),以国内情报学领域9种期刊作为数据来源,分析国内情报学领域2012年–2016年的研究主题结构以及其... [目的]分析某研究领域科技文献在一段时间内的主题结构并追踪其变化。[方法]基于改进的主题模型CSToT(ContentSimilarity-TopicsoverTime),以国内情报学领域9种期刊作为数据来源,分析国内情报学领域2012年–2016年的研究主题结构以及其演化过程。[结果]CSTo T模型能清晰揭示科技文献主题结构,并获得主题演化关系。对案例数据分析后发现,国内情报学领域研究范围广泛,涉及信息服务、网络舆情、数据挖掘等方面;演化趋势分为上升型、下降型、稳定型和波动型4种;关于信息服务的研究路线演化尤为凸显。[局限]训练数据规模不够大。[结论]CSTo T模型能有效识别科技文献主题结构并获取其演化关系,为相关学科领域的研究与发展提供参考和依据。 展开更多
关键词 ToT主题模型 主题发现 主题演化
原文传递
基于引文的科技文献主题抽取研究 被引量:7
18
作者 张思凤 梁梦丽 曹高辉 《情报理论与实践》 CSSCI 北大核心 2017年第6期122-127,共6页
[目的/意义]主题抽取的效果对于信息检索、自动标引、自然语言处理具有重要的价值,提高主题抽取的效果,既能改善检索系统主题检索准确性,又能够帮助学者更加高效地了解文献的主要思想。文章研究并探讨了从引用内容中抽取文献主题的有效... [目的/意义]主题抽取的效果对于信息检索、自动标引、自然语言处理具有重要的价值,提高主题抽取的效果,既能改善检索系统主题检索准确性,又能够帮助学者更加高效地了解文献的主要思想。文章研究并探讨了从引用内容中抽取文献主题的有效性。[方法/过程]选取自然语言处理领域文献为研究对象,利用文献之间的引用与被引用关系抽取引用内容,进行分词并计算权重;将引用内容、全文抽取的候选词进行专家打分评价效果并将其与关键词对比,使用F值评价两种语料库抽取候选词的优劣。[结果/结论]通过专家打分及计算F值,发现引用内容在抽取候选词方面具有明显优势。 展开更多
关键词 科技文献 引文 主题抽取 关键词
原文传递
基于主题提取的海量微博情感分析 被引量:7
19
作者 王灿伟 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第3期549-556,共8页
从海量微博数据中分析公众对某一社会事件的情感倾向具有重要研究意义,而海量微博文本稀疏规模庞大,导致传统方法处理这一任务时面临诸多挑战.提出一种基于主题聚类的海量微博情感分析方法.首先基于高质量微博数据挖掘频繁项集,设定语... 从海量微博数据中分析公众对某一社会事件的情感倾向具有重要研究意义,而海量微博文本稀疏规模庞大,导致传统方法处理这一任务时面临诸多挑战.提出一种基于主题聚类的海量微博情感分析方法.首先基于高质量微博数据挖掘频繁项集,设定语义相关阈值,筛选重要频繁项集进行谱聚类,得到主题关键词.基于主题关键词对海量微博数据依据语义相关度归类,最后结合情感词典对每类中的微博检索主题关键词前后修饰距离内情感词及否定词,结合表情符号计算微博情感值.在百万规模中文微博上进行实验,证明该方法能准确按主题归类且能有效在该主题上进行情感分类. 展开更多
关键词 海量微博 聚类 主题提取 情感分类
下载PDF
多维特征融合的混合神经网络文本情感分析模型 被引量:3
20
作者 袁健 董光文 《小型微型计算机系统》 CSCD 北大核心 2023年第10期2137-2143,共7页
针对复杂文本评论的情感分析研究存在着隐式主题方面分类不精确、文本特征提取不全面和识别文本上下文语义不足等问题,论文提出了一种多维特征融合的混合神经网络文本情感分析模型MFF-HNN.该模型先把词向量、词性、位置和句法依存特征... 针对复杂文本评论的情感分析研究存在着隐式主题方面分类不精确、文本特征提取不全面和识别文本上下文语义不足等问题,论文提出了一种多维特征融合的混合神经网络文本情感分析模型MFF-HNN.该模型先把词向量、词性、位置和句法依存特征进行注意力特征融合,抽取出主题词库,然后把融合特征输入到改进的TBGRU模型和DCNN模型中获取语义信息和局部特征信息,再与主题词库结合进行注意力特征融合语义特征信息,最后使用SoftMax函数获取文本方面级情感分类信息.实验表明,该模型的情感分类的效果优于其它模型. 展开更多
关键词 特征融合 主题提取 情感分析 注意力机制 方面级
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部