期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于DPCA的社会化问答社区用户生成答案知识聚合与主题发现服务研究 被引量:17
1
作者 陶兴 张向先 郭顺利 《情报理论与实践》 CSSCI 北大核心 2019年第6期94-98,87,共6页
[目的/意义]通过密度峰值聚类算法(DPCA)对社会化问答社区用户生成答案进行知识聚合与主题发现。[方法/过程]利用TextRank方法挖掘用户生成答案中的关键词集合,再利用DPCA对关键词集合进行凝聚,最后进行可视化词云展示。[结果/结论]与... [目的/意义]通过密度峰值聚类算法(DPCA)对社会化问答社区用户生成答案进行知识聚合与主题发现。[方法/过程]利用TextRank方法挖掘用户生成答案中的关键词集合,再利用DPCA对关键词集合进行凝聚,最后进行可视化词云展示。[结果/结论]与传统聚类算法对比,DPCA能获得更加准确的聚类数目,簇类内的关键词更加凝练,知识主题更加明确。文章通过聚合服务,自动化地发现社会化问答社区中的知识主题,进一步提高了社会化问答社区中的用户交流方式和知识服务水平。[局限]用户生成答案缺少标准实验参考集,聚类结果测度有待完善。 展开更多
关键词 社会化问答社区 知识聚合 主题发现 密度峰值聚类算法 TextRank
原文传递
基于BTM和K-means的微博话题检测 被引量:13
2
作者 李卫疆 王真真 余正涛 《计算机科学》 CSCD 北大核心 2017年第2期257-261,274,共6页
近年来,微博等社交网络的发展给人们的沟通交流提供了方便。由于每条微博都限定在140字以内,因此产生了大量的短文本信息。从短文本中发现话题日渐成为一项重要的课题。传统的话题模型(如概率潜在语义分析(PLSA)、潜在狄利克雷分配(LDA)... 近年来,微博等社交网络的发展给人们的沟通交流提供了方便。由于每条微博都限定在140字以内,因此产生了大量的短文本信息。从短文本中发现话题日渐成为一项重要的课题。传统的话题模型(如概率潜在语义分析(PLSA)、潜在狄利克雷分配(LDA)等)在处理短文本方面都面临着严重的数据稀疏问题。另外,当数据集比较集中并且话题文档间的差别较明显时,K-means聚类算法能够聚类出有区分度的话题。引入BTM话题模型来处理微博数据这样的短文本,以缓解数据稀疏的问题。同时,整合了K-means聚类算法来对BTM模型所发现的话题进行聚类。在新浪微博短文本集上进行的实验证明了此方法发现话题的有效性。 展开更多
关键词 短文本 话题模型 话题发现 K-MEANS聚类
下载PDF
主题发现技术方法研究 被引量:11
3
作者 赵琦 张智雄 +1 位作者 孙坦 许雁冬 《情报理论与实践》 CSSCI 北大核心 2009年第4期104-108,共5页
介绍了主题发现的技术思路,同时分析了主题发现的相关核心技术及典型应用系统,最后提出了主题发现待解决的一些问题。
关键词 主题发现 主题聚类 本体
原文传递
基于改进Single-Pass算法的网络新闻话题发现 被引量:11
4
作者 孙红光 高星 +3 位作者 孙铁利 杨凤芹 彭杨 冯国忠 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2018年第1期114-118,共5页
通过改进的Single-Pass增量文本聚类算法,以话题为粒度对新闻信息进行组织,实现网络新闻话题的发现.该方法考虑了新闻的动态性和时间特性,在特征词项权重计算中从词项在标题和正文中的位置信息及词项的增量文档频率两方面进行优化,同时... 通过改进的Single-Pass增量文本聚类算法,以话题为粒度对新闻信息进行组织,实现网络新闻话题的发现.该方法考虑了新闻的动态性和时间特性,在特征词项权重计算中从词项在标题和正文中的位置信息及词项的增量文档频率两方面进行优化,同时在相似度的计算中添加了时间因素及聚类中动态更新话题的质心向量.应用基于主题的网络爬虫构建的新闻等语料作为测试数据集,实验结果表明,改进算法较传统算法在耗费代价和错检率上分别降低0.34%和1.57%,验证了改进算法的有效性和准确性. 展开更多
关键词 话题发现 文本聚类 Single—Pass算法
下载PDF
基于文本聚类的主题发现方法研究综述 被引量:10
5
作者 李璐萍 赵小兵 《情报探索》 2020年第11期121-127,共7页
[目的/意义]对基于文本聚类的主题发现研究成果进行了梳理,旨在为今后学者开展该领域的相关研究提供参考和借鉴。[方法/过程]重点阐述和分析了基于共词分析法、基于改进的划分聚类算法和层次聚类算法以及其他基于聚类方法的主题发现技术... [目的/意义]对基于文本聚类的主题发现研究成果进行了梳理,旨在为今后学者开展该领域的相关研究提供参考和借鉴。[方法/过程]重点阐述和分析了基于共词分析法、基于改进的划分聚类算法和层次聚类算法以及其他基于聚类方法的主题发现技术,并对目前主题发现领域的最新方法和发展趋势进行了分析和展望。[结果/结论]目前基于文本聚类的主题发现领域下的理论研究较为成熟但整体还处于探索阶段,未来应继续深化技术和方法上的创新研究。 展开更多
关键词 主题发现 文本聚类 聚类算法
下载PDF
基于文本挖掘的互联网教育课程主题发现与聚类研究 被引量:7
6
作者 李梦杰 刘建国 +2 位作者 郭强 李仁德 汤晓雷 《上海理工大学学报》 CAS 北大核心 2018年第3期259-266,共8页
如何通过有效的数据挖掘对互联网教育平台中的课程主题进行挖掘、聚类是当前互联网教育亟待解决的问题之一。实验基于文本信息对某互联网教育平台的1 472门课程体系的主题分布及类别进行了分析。采集了某平台1 472门课程的描述信息,进... 如何通过有效的数据挖掘对互联网教育平台中的课程主题进行挖掘、聚类是当前互联网教育亟待解决的问题之一。实验基于文本信息对某互联网教育平台的1 472门课程体系的主题分布及类别进行了分析。采集了某平台1 472门课程的描述信息,进而通过自建词典和停用词库对文本进行切词分词,并通过TF-IDF对词频权重进行处理。利用LDA主题模型对课程的主题分布进行识别,发现了230个主题,并得到了每门课程在这230个主题下的文档–主题分布以及主题–词分布。进一步基于分布相似性函数对课程进行层次聚类,发现基于不同抽象层次主题的课程相互关联。最后将16个主题信息进行了可视化,这些主题分别从内容和数量两个角度反映出了课程的主题特征以及课程的聚合分布情况。 展开更多
关键词 主题发现 层次聚类 互联网教育 文本挖掘
下载PDF
一种融合多维关系的地理环境时空主题发现方法
7
作者 朱杰 张宏军 +1 位作者 廖湘琳 徐有为 《武汉大学学报(信息科学版)》 EI CAS CSCD 北大核心 2024年第2期291-302,共12页
对战场文本数据的深入挖掘,可以高质量和高效率地发现时空主题结构,从而有效揭示战场事件发展的时空规律。针对现有的主题发现方法无法有效适用于具有多维异构关系的时空主题发现,提出了一种融合多维关系联合聚类的时空主题发现方法,首... 对战场文本数据的深入挖掘,可以高质量和高效率地发现时空主题结构,从而有效揭示战场事件发展的时空规律。针对现有的主题发现方法无法有效适用于具有多维异构关系的时空主题发现,提出了一种融合多维关系联合聚类的时空主题发现方法,首先构建以地理环境实体、地理位置与事件主题为节点的主题关系网络;然后以张量模型的Tucker分解建立主题关系的完全表达式作为主题分类的目标函数;最后运用块值矩阵分解方法进行联合聚类计算,获取主题分类结果和内聚结构。实验结果表明,该方法能够有效发现具有时空语义关系特征的主题结构,较好地体现出地理环境要素与时空主题之间的关联性,以及时空主题在地理位置与事件主题标签上的内聚性,反映出主题的演化过程。 展开更多
关键词 地理环境 多维关系 时空主题发现 块值矩阵分解 联合聚类
原文传递
基于集成学习的跨语言文本主题发现方法研究
8
作者 李帅 于娟 巫邵诚 《计算机科学》 CSCD 北大核心 2024年第S01期182-189,共8页
跨语言文本主题发现是跨语言文本挖掘领域的重要研究方向,对跨语言文本分析和组织各种文本数据具有较高的应用价值。基于Bagging和跨语言词嵌入改进LDA主题模型,提出跨语言文本主题发现方法BCL-LDA(Bagging,Cross-lingual word embeddin... 跨语言文本主题发现是跨语言文本挖掘领域的重要研究方向,对跨语言文本分析和组织各种文本数据具有较高的应用价值。基于Bagging和跨语言词嵌入改进LDA主题模型,提出跨语言文本主题发现方法BCL-LDA(Bagging,Cross-lingual word embedding with LDA),从多语言文本中挖掘关键信息。该方法首先将Bagging集成学习思想与LDA主题模型结合生成混合语言子主题集;然后利用跨语言词嵌入和K-means算法对混合子主题进行聚类分组;最后使用TF-IDF算法对主题词进行过滤排序。汉语-德语、汉语-法语主题发现实验表明,该方法在主题连贯性和多样性方面均表现优异,能够提取出语义更加相关且主题更加连贯多样的双语主题。 展开更多
关键词 主题发现 跨语言 LDA 主题聚类 德语 法语
下载PDF
基于自适应聚类的文本潜在主题的自动发现 被引量:4
9
作者 胡珀 何婷婷 《郑州大学学报(理学版)》 CAS 2007年第2期92-95,共4页
提出了一种自适应于不同题材文本自动确定其包含的潜在主题数K的方法.考虑到大多数文本的潜在主题分布符合段落密度特性,提出以段落为中心的研究策略,通过采用基于K均值的聚类算法联同自定义判别函数的聚类分析方法,实现了段落自适应聚... 提出了一种自适应于不同题材文本自动确定其包含的潜在主题数K的方法.考虑到大多数文本的潜在主题分布符合段落密度特性,提出以段落为中心的研究策略,通过采用基于K均值的聚类算法联同自定义判别函数的聚类分析方法,实现了段落自适应聚类下的文本潜在主题的自动发现.实验结果表明,该方法在一定程度上能有效处理普遍存在的文风自由且主题表达灵活多样的各式文本. 展开更多
关键词 自然语言处理 主题发现 聚类
下载PDF
基于LDA模型的网络刊物主题发现与聚类 被引量:4
10
作者 杨传春 张冰雪 +1 位作者 李仁德 郭强 《上海理工大学学报》 CAS CSCD 北大核心 2019年第3期273-280,306,共9页
随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采... 随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2794篇学习刊物进行了主题发现和聚类实验,建立了包含3800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。 展开更多
关键词 LDA模型 生成模型 主题发现 层次聚类 文本挖掘
下载PDF
融合频繁项集和潜在语义分析的股评论坛主题发现方法 被引量:2
11
作者 张涛 翁康年 +1 位作者 顾小敏 张玥杰 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第4期583-592,共10页
针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC... 针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类. 展开更多
关键词 主题发现 股吧论坛 频繁项集 潜在语义分析 文本软聚类
下载PDF
基于SSDKmeans算法的微博热点话题发现研究 被引量:1
12
作者 李海明 《软件导刊》 2019年第9期173-175,182,共4页
为及时从海量微博信息中迅捷有效提取出微博热点话题、事件,提出基于频繁集的聚类SSDKmeans算法,在有限空间下统计分词的近似频数,并在此基础上构建文本向量空间模型,在聚类生成的每个话题簇中提炼话题关键词。通过对2万条微博数据进行... 为及时从海量微博信息中迅捷有效提取出微博热点话题、事件,提出基于频繁集的聚类SSDKmeans算法,在有限空间下统计分词的近似频数,并在此基础上构建文本向量空间模型,在聚类生成的每个话题簇中提炼话题关键词。通过对2万条微博数据进行有效性验证,结果表明,基于SSDKmeans算法的话题发现有较高的召回率和精准率,分别为91.3%、92.1%。SSDKmeans算法能够有效提高微博热点话题发现率,进而及时了解社会热点话题与舆论趋势。 展开更多
关键词 话题发现 文本聚类 微博短文本 频繁集
下载PDF
融合近邻标题图的涉案新闻话题发现
13
作者 卢天旭 余正涛 黄于欣 《计算机工程与设计》 北大核心 2022年第5期1249-1257,共9页
针对涉案舆情领域同一案件下不同话题的新闻文档要素信息较为接近,已有的话题发现方法不能很好地进行表征和区分的问题,提出融合近邻标题图的涉案新闻话题发现方法。在话题发现的过程中引入标题的关联关系,构建近邻标题图,通过图卷积网... 针对涉案舆情领域同一案件下不同话题的新闻文档要素信息较为接近,已有的话题发现方法不能很好地进行表征和区分的问题,提出融合近邻标题图的涉案新闻话题发现方法。在话题发现的过程中引入标题的关联关系,构建近邻标题图,通过图卷积网络提取标题的全局特征,同时使用深度网络提取文档的局部特征,加入到标题的编码过程中去,更好地实现聚类。实验结果表明,联合标题和文档进行话题建模可以提升涉案新闻话题发现的准确性指标。 展开更多
关键词 涉案新闻 话题发现 要素信息 聚类 近邻标题 图卷积 预训练模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部