期刊文献+
共找到124篇文章
< 1 2 7 >
每页显示 20 50 100
情感分类研究进展 被引量:88
1
作者 陈龙 管子玉 +1 位作者 何金红 彭进业 《计算机研究与发展》 EI CSCD 北大核心 2017年第6期1150-1170,共21页
文本情感分析是多媒体智能理解的重要问题之一.情感分类是情感分析领域的核心问题,旨在解决评论情感极性的自动判断问题.由于互联网评论数据规模与日俱增,传统基于词典的方法和基于机器学习的方法已经不能很好地处理海量评论的情感分类... 文本情感分析是多媒体智能理解的重要问题之一.情感分类是情感分析领域的核心问题,旨在解决评论情感极性的自动判断问题.由于互联网评论数据规模与日俱增,传统基于词典的方法和基于机器学习的方法已经不能很好地处理海量评论的情感分类问题.随着近年来深度学习技术的快速发展,其在大规模文本数据的智能理解上表现出了独特的优势,越来越多的研究人员青睐于使用深度学习技术来解决文本分类问题.主要分为2个部分:1)归纳总结传统情感分类技术,包括基于字典的方法、基于机器学习的方法、两者混合方法、基于弱标注信息的方法以及基于深度学习的方法;2)针对前人情感分类方法的不足,详细介绍所提出的面向情感分类问题的弱监督深度学习框架.此外,还介绍了评论主题提取相关的经典工作.最后,总结了情感分类问题的难点和挑战,并对未来的研究工作进行了展望. 展开更多
关键词 情感分析 情感分类 深度学习 弱监督 主题提取
下载PDF
主题搜索引擎中网络爬虫的搜索策略研究 被引量:37
2
作者 李勇 韩亮 《计算机工程与科学》 CSCD 2008年第3期4-6,56,共4页
本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核... 本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法—EPR算法。 展开更多
关键词 搜索引擎 网络蜘蛛 搜索策略 主题提取
下载PDF
一种基于相似度分析的主题提取和发现算法 被引量:32
3
作者 王晓宇 熊方 +1 位作者 凌波 周傲英 《软件学报》 EI CSCD 北大核心 2003年第9期1578-1585,共8页
试图从另一个角度来考察主题提取算法HITS,即提出一种基于相似度的链接分析模型来观察主题提取的过程.通过给出一种一般化的相似度定义,提出了一种仅使用链接分析来改善主题提取的质量的主题提取算法.同时,还将主题发现的功能也结合到... 试图从另一个角度来考察主题提取算法HITS,即提出一种基于相似度的链接分析模型来观察主题提取的过程.通过给出一种一般化的相似度定义,提出了一种仅使用链接分析来改善主题提取的质量的主题提取算法.同时,还将主题发现的功能也结合到了算法的框架中.通过该功能,用户可以搜索到次流行的主题.实验结果显示了这一新算法的两个优点:不必使用内容分析即能改善主题提取的质量以及能够进一步发现在查询结果中显现出来的不同主题. 展开更多
关键词 主题提取 主题发现 链接分析 WEB搜索
下载PDF
一种用于主题提取的非线性加权方法 被引量:25
4
作者 韩客松 王永成 《情报学报》 CSSCI 北大核心 2000年第6期650-653,共4页
主题提取是文本处理的一项重要工作。本文首先分析了主题抽取中加权方法形成时的一些定量问题 ,然后提出了主题相关词一种非线性加权处理方法 ,对比实验结果显示它不仅是一种比较稳健的方法 ,而且能在一定程度上提高主题提取的正确率。
关键词 主题提取 非线性 加权 主题标引 计算机自动标引
下载PDF
三个层面的中文文本主题自动提取研究 被引量:13
5
作者 韩客松 王永成 +1 位作者 沈洲 吴芳芳 《中文信息学报》 CSCD 北大核心 2001年第4期20-27,共8页
为适应Internet时代和大规模文献处理的需要 ,以中文文本为处理对象 ,研究了从主题词、主题概念和主题句三个不同层面自动抽取文本主题的方法 ,着重讨论了加权体系和一些经验值的获取方法。对新闻类文献做了实验 。
关键词 主题 主题概念 主题 加权 中文文本 主题提取 文本处理
下载PDF
基于LDA挖掘计算机科学文献的研究主题 被引量:18
6
作者 杨海霞 高宝俊 孙含林 《现代图书情报技术》 CSSCI 2016年第11期20-26,共7页
【目的】运用文本挖掘技术自动从海量科技文献中提取研究主题并探测其研究趋势。【方法】以《中文核心期刊要目总览(2014年版))—"TP自动化技术、计算机技术"栏目前10种期刊刊载的计算机科学类(Computer Science)文献为研究对... 【目的】运用文本挖掘技术自动从海量科技文献中提取研究主题并探测其研究趋势。【方法】以《中文核心期刊要目总览(2014年版))—"TP自动化技术、计算机技术"栏目前10种期刊刊载的计算机科学类(Computer Science)文献为研究对象,借助LDA主题模型,考虑科技文献的发表时间信息,挖掘出典型话题,并根据主题强度分析主题的演化趋势。【结果】18个研究话题中有7个主题强度上升的主题和6个主题强度下降的主题。【局限】仅分析了国内计算机领域的前10种期刊,期刊范围不够大,也未考虑国外计算机领域的期刊文献。【结论】该方法能够深入挖掘计算机领域期刊文献的话题,帮助从事该领域研究的学者了解主题的演化趋势并寻找新兴研究主题。 展开更多
关键词 计算机科学 LDA 主题提取 主题强度 文档聚类
原文传递
利用串匹配技术实现网上新闻的主题提取(英文) 被引量:11
7
作者 尹中航 王永成 +1 位作者 蔡巍 韩客松 《软件学报》 EI CSCD 北大核心 2002年第2期159-167,共9页
从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上... 从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上新闻的主题提取.提出并实现了一种不用词典即可提取新闻主题的新方法.该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串.经过简单地处理,这些字串能够较好地反映新闻的主题.实验结果显示该方法能够准确、有效地提取出绝大部分网上新闻的主题,满足新闻自动处理的需要.该方法同样适用于其它亚洲语言和西方语言. 展开更多
关键词 网页 信息处理 网上新闻 主题提取 自然语言处理 串匹配技术
下载PDF
基于学习者在线评论文本的MOOC质量评判——以“中国大学MOOC”网的在线评论文本为例 被引量:15
8
作者 张新香 段燕红 《现代教育技术》 CSSCI 北大核心 2020年第9期56-63,共8页
研究在线评论文本,能从学习者角度科学提炼MOOC质量的影响因素,客观评判MOOC的教学效果。基于此,文章提出了基于学习者在线评论文本的MOOC质量评判新思路:按照MOOC质量评判的流程框架,以“中国大学MOOC”网的在线评论文本为例,基于灰色... 研究在线评论文本,能从学习者角度科学提炼MOOC质量的影响因素,客观评判MOOC的教学效果。基于此,文章提出了基于学习者在线评论文本的MOOC质量评判新思路:按照MOOC质量评判的流程框架,以“中国大学MOOC”网的在线评论文本为例,基于灰色关联分析实施MOOC质量评判,并选取10门案例课程检验评判效果。实验结果表明:“视频制作”、“课程内容”、“知识量”、“教学风格”、“学习感受”这5大主题影响学习者对MOOC质量的评判;基于学习者在线评论文本的MOOC质量评判结果与事实基本相符,具有较好的精确度和可操作性,能合理地对课程质量进行评判和排序,对MOOC课程的建设和改善具有重要意义。 展开更多
关键词 MOOC 质量评判 在线评论文本 主题提取 灰色关联分析
下载PDF
一种个性化的主题提取和层次发现算法 被引量:5
9
作者 傅向华 马兆丰 +1 位作者 何明 冯博琴 《西安交通大学学报》 EI CAS CSCD 北大核心 2005年第2期119-122,共4页
从语义相关性角度分析超链归纳主题搜索(HITS) 算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此提出了一种个性化的主题提取和层次发现算法(PTDHE),通过个人查询日志扩展查询词,构造符合用户需要的个性化根集和基础... 从语义相关性角度分析超链归纳主题搜索(HITS) 算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此提出了一种个性化的主题提取和层次发现算法(PTDHE),通过个人查询日志扩展查询词,构造符合用户需要的个性化根集和基础集合,达到防止主题漂移的目的.PTDHE采用基于最小最大原则的图划分方法,层次地发现与用户查询相关的主题页面集合,利用HITS算法分别计算每个主题页面集合中页面的权威值,返回与查询相关的其他主题权威页面.在14个查询上的实验结果表明,与HITS算法相比,PTDHE算法不仅可以减少2%~66%的主题漂移率,而且可以发现与查询相关的多个主题. 展开更多
关键词 链接分析 超链归纳主题搜索 主题提取 主题漂移 查询扩展
下载PDF
基于主题-情感融合分析的突发公共卫生事件网络舆情演化研究 被引量:11
10
作者 杨嘉韵 张慧明 《情报探索》 2021年第8期18-28,共11页
[目的/意义]针对突发公共卫生事件,借助自然语言处理技术,快速挖掘舆论热点和舆情演化特征,提升政府部门的应急管理能力。[方法/过程]将新冠肺炎疫情作为研究案例,首先搜集了疫情相关的微博文本,在划分为潜伏期、爆发期、衰退期三个阶... [目的/意义]针对突发公共卫生事件,借助自然语言处理技术,快速挖掘舆论热点和舆情演化特征,提升政府部门的应急管理能力。[方法/过程]将新冠肺炎疫情作为研究案例,首先搜集了疫情相关的微博文本,在划分为潜伏期、爆发期、衰退期三个阶段的基础上,使用LDA主题模型和语义规则构建的方法进行主题-情感的融合分析,并结合疫情期间的新闻事件探究了网络舆情的情感演化情况和负面舆论的关注热点。[结果/结论]研究发现,关于疫情的负面情绪微博大多集中在前中期,且主要来源于对疫情信息的不确定性;而后期积极态度随国内疫情好转而成为主流。此外,民众对新冠肺炎的传播、成因、境外输入和官方信息发布等子话题的情绪起伏较大。 展开更多
关键词 网络舆情 主题提取 情感分析 LDA 情感词典
下载PDF
基于中文文本主题提取的分词方法研究 被引量:8
11
作者 唐培丽 胡明 张勇 《吉林工程技术师范学院学报》 2005年第2期34-36,共3页
中文文本主题提取有助于用户对海量信息进行浓缩和提炼。而主题提取是以中文分词作为第一步,分词质量直接影响到文献主题提取的质量。本文提出了一种基于中文文本主题提取的分词方法,该方法以概念语义网络为分词词典,采用改进的最大匹... 中文文本主题提取有助于用户对海量信息进行浓缩和提炼。而主题提取是以中文分词作为第一步,分词质量直接影响到文献主题提取的质量。本文提出了一种基于中文文本主题提取的分词方法,该方法以概念语义网络为分词词典,采用改进的最大匹配算法对文本进行切词,并同步完成主题词的规范工作。 展开更多
关键词 主题提取 中文分词 最大匹配算法 歧义切分
下载PDF
基于概率主题模型的京津冀协同发展研究主题演化分析 被引量:7
12
作者 赵杰 李海峰 李纯果 《科学技术与工程》 北大核心 2019年第36期225-234,共10页
京津冀协同发展是当前各学科领域共同关注的热点话题。为深入了解京津冀协同发展话题的研究趋势,以2009~2019年中国知网收录的14235篇与京津冀协同发展相关的期刊论文为研究对象,采用概率主题模型方法,提出以困惑度、主题平均相似度为... 京津冀协同发展是当前各学科领域共同关注的热点话题。为深入了解京津冀协同发展话题的研究趋势,以2009~2019年中国知网收录的14235篇与京津冀协同发展相关的期刊论文为研究对象,采用概率主题模型方法,提出以困惑度、主题平均相似度为指标确定最优主题数,结合文献发表时间挖掘期刊论文潜在主题,从主题强度和主题相似度等多个角度分析主题演化趋势。通过数据分析,挖掘10个潜在主题,生成主题强度年度变化趋势,构建主题内容演化路径,分析主题演化规律。以期为深刻认识京津冀协同发展和科学决策提供理论依据。 展开更多
关键词 京津冀协同发展 概率主题模型 主题提取 主题演化
下载PDF
基于微博标签和LDA的微博主题提取算法 被引量:8
13
作者 邓丹君 姚莉 《计算机与数字工程》 2017年第5期954-957,共4页
论文根据微博文本所具有的特点,将微博文本具有的三种的特殊符号:"@"、"//"和"#"纳入微博主题提取的分析中。在传统的LDA模型的基础上,建立一种微博标签的LDA模型,该模型考虑到微博的主题、转发的微博、... 论文根据微博文本所具有的特点,将微博文本具有的三种的特殊符号:"@"、"//"和"#"纳入微博主题提取的分析中。在传统的LDA模型的基础上,建立一种微博标签的LDA模型,该模型考虑到微博的主题、转发的微博、微博的评论等内容,增强对微博主题的提取的准确性。实验结果表明,论文提出的算法对于新浪微博的主题提取的效果良好。 展开更多
关键词 微博 主题提取 LDA 微博标签
下载PDF
多维特征融合的混合神经网络文本情感分析模型 被引量:3
14
作者 袁健 董光文 《小型微型计算机系统》 CSCD 北大核心 2023年第10期2137-2143,共7页
针对复杂文本评论的情感分析研究存在着隐式主题方面分类不精确、文本特征提取不全面和识别文本上下文语义不足等问题,论文提出了一种多维特征融合的混合神经网络文本情感分析模型MFF-HNN.该模型先把词向量、词性、位置和句法依存特征... 针对复杂文本评论的情感分析研究存在着隐式主题方面分类不精确、文本特征提取不全面和识别文本上下文语义不足等问题,论文提出了一种多维特征融合的混合神经网络文本情感分析模型MFF-HNN.该模型先把词向量、词性、位置和句法依存特征进行注意力特征融合,抽取出主题词库,然后把融合特征输入到改进的TBGRU模型和DCNN模型中获取语义信息和局部特征信息,再与主题词库结合进行注意力特征融合语义特征信息,最后使用SoftMax函数获取文本方面级情感分类信息.实验表明,该模型的情感分类的效果优于其它模型. 展开更多
关键词 特征融合 主题提取 情感分析 注意力机制 方面级
下载PDF
基于主题提取的海量微博情感分析 被引量:7
15
作者 王灿伟 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第3期549-556,共8页
从海量微博数据中分析公众对某一社会事件的情感倾向具有重要研究意义,而海量微博文本稀疏规模庞大,导致传统方法处理这一任务时面临诸多挑战.提出一种基于主题聚类的海量微博情感分析方法.首先基于高质量微博数据挖掘频繁项集,设定语... 从海量微博数据中分析公众对某一社会事件的情感倾向具有重要研究意义,而海量微博文本稀疏规模庞大,导致传统方法处理这一任务时面临诸多挑战.提出一种基于主题聚类的海量微博情感分析方法.首先基于高质量微博数据挖掘频繁项集,设定语义相关阈值,筛选重要频繁项集进行谱聚类,得到主题关键词.基于主题关键词对海量微博数据依据语义相关度归类,最后结合情感词典对每类中的微博检索主题关键词前后修饰距离内情感词及否定词,结合表情符号计算微博情感值.在百万规模中文微博上进行实验,证明该方法能准确按主题归类且能有效在该主题上进行情感分类. 展开更多
关键词 海量微博 聚类 主题提取 情感分类
下载PDF
今天你上“小红书”了吗?在线社区用户信息分享的主题提取与动机分析
16
作者 刘洋 段宇杰 +2 位作者 张鑫 董亦非 胡秀英 《图书情报知识》 北大核心 2024年第4期110-120,145,共12页
[目的/意义]旨在定量分析小红书平台上用户分享内容的主题,以促进社交媒体平台的质量改善,推动社交平台健康发展。[研究设计/方法]基于Censydiam动机分析模型,采用BERTopic主题提取方法,构建在线社区信息分享主题与动机研究框架。以小... [目的/意义]旨在定量分析小红书平台上用户分享内容的主题,以促进社交媒体平台的质量改善,推动社交平台健康发展。[研究设计/方法]基于Censydiam动机分析模型,采用BERTopic主题提取方法,构建在线社区信息分享主题与动机研究框架。以小红书平台为研究对象,收集了3,688,942条用户信息,并对用户在不同主题下的信息分享动机进行了分析。[结论/发现]小红书用户的信息分享主题主要包括生活经验、购物和食品三个方面。用户主要需求包括对社会群体的认同与归属感、融合沟通以及享乐与释放等方面。因此,平台应更注重与整体社交媒体环境的和谐性,保持一致的社交调性,以体现对用户群体的关怀和增强用户的归属感。[创新/价值]以小红书在线社区的文本数据为基础,验证了研究框架的可行性,并为在线社区的分析和建设提供新的思路和方法。 展开更多
关键词 主题提取 信息分享 动机分析 Censydiam模型 小红书
下载PDF
基于Python爬虫技术和LDA模型的短文本获取技术分析 被引量:6
17
作者 黄兴荣 徐兴彬 《电大理工》 2019年第3期1-3,11,共4页
从互联网短文本数据中获取与提取出有价值的信息是目前机器学习研究的热点。在本研究中,以某网站中关于"规划投资"新闻标题的短文本数据作为研究对象。首先基于Python实现了数据爬取,然后基于LDA模型对短文本数据文件实施主... 从互联网短文本数据中获取与提取出有价值的信息是目前机器学习研究的热点。在本研究中,以某网站中关于"规划投资"新闻标题的短文本数据作为研究对象。首先基于Python实现了数据爬取,然后基于LDA模型对短文本数据文件实施主题提取,生成规划投资主题聚类,将数据由无序变为有序,由模糊变得准确,最终实现获得有价值信息的目标。 展开更多
关键词 短文本大数据 数据爬取 LDA模型 主题提取
下载PDF
基于主题的个性化查询扩展模型 被引量:5
18
作者 支凤麟 徐炜民 《计算机工程与设计》 CSCD 北大核心 2010年第20期4471-4475,共5页
针对"多义词"和"词典问题",结合文本分析和用户行为分析,提出了一种基于主题的个性化查询扩展模型。分析文本时,结合关联规则和图排序算法构建TextRank模型,脱离了对人工词典的依赖,并用此模型提取多文本主题;在用... 针对"多义词"和"词典问题",结合文本分析和用户行为分析,提出了一种基于主题的个性化查询扩展模型。分析文本时,结合关联规则和图排序算法构建TextRank模型,脱离了对人工词典的依赖,并用此模型提取多文本主题;在用户行为分析上,使用移动时间窗口法建立用户模型,有效地捕获了当前的查询主题。查询扩展时,匹配用户主题与文本主题,选择相应的关联规则进行扩展。对结合关联规则与图排序的主题提取进行了实验,并将基于主题的查询扩展模型与其它查询扩展模型进行了比较。 展开更多
关键词 查询扩展 关联规则 主题提取 用户兴趣 个性化
下载PDF
基于BERTopic模型的组织成员工作投入研究的主题提取
19
作者 金国峰 陈泽峰 《情报探索》 2024年第8期73-81,共9页
[目的/意义]旨在通过科学计量方法,挖掘“组织成员工作投入”文献资源中蕴藏的主题,为后续研究提供参考和启示。[方法/过程]搜集中国知网学术期刊数据库中2002-2023年相关文献的摘要和发表年份,经过文本预处理,使用BERTopic模型进行主... [目的/意义]旨在通过科学计量方法,挖掘“组织成员工作投入”文献资源中蕴藏的主题,为后续研究提供参考和启示。[方法/过程]搜集中国知网学术期刊数据库中2002-2023年相关文献的摘要和发表年份,经过文本预处理,使用BERTopic模型进行主题提取和可视化分析。[结果/结论]国内现有的关于组织成员工作投入的研究可以分为研究内容和研究方法两大主题集群,均表现出多样化态势。主题时序演化分析揭示了组织成员工作投入研究正逐步转向对个体差异和心理健康的关注。未来研究可从新技术的影响、工作投入动态变化以及跨学科合作等方面进行拓展。 展开更多
关键词 工作投入 主题提取 BERTopic 可视化分析
下载PDF
信息茧房视域下在线问答社区用户健康信息需求对比研究
20
作者 邹筱 刘垣春 周欢 《衡阳师范学院学报》 2024年第3期59-67,共9页
信息获取途径的固化是促使信息茧房形成的重要原因之一,本研究旨在让社区了解用户的健康信息需求热点,并为社区信息治理和社区间信息整合提供参考,减少信息茧房对网络信息空间治理带来的负面影响。借助主题词提取和文本共现网络构建等... 信息获取途径的固化是促使信息茧房形成的重要原因之一,本研究旨在让社区了解用户的健康信息需求热点,并为社区信息治理和社区间信息整合提供参考,减少信息茧房对网络信息空间治理带来的负面影响。借助主题词提取和文本共现网络构建等自然语言处理技术,利用不同类型在线问答社区中真实的用户提问数据,分析用户健康信息需求热点,并对其需求特征的异同进行对比分析。实验结果表明:一方面,综合型与垂直型在线问答社区对于疾病的基础病理知识、药物信息以及饮食方面的关注度较高,且均具有适老化需求。另一方面,综合型在线问答社区对于疾病的预防关注度较高,而垂直型在线问答社区更加关注于疾病治疗,综合型在线问答社区用户存在情感支持需求,但总体上国内在线问答社区的情感支持需求均不高。 展开更多
关键词 信息茧房 在线健康问答社区 健康信息需求 主题提取 文本共现网络
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部