期刊文献+
共找到164篇文章
< 1 2 9 >
每页显示 20 50 100
基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究 被引量:44
1
作者 吴江 侯绍新 +1 位作者 靳萌萌 胡忠义 《情报学报》 CSSCI CSCD 北大核心 2017年第11期1183-1191,共9页
随着互联网时代的快速发展,在线医疗社区的出现打破了时空限制,为用户提供了丰富的医疗信息和情感帮助,已经成为社会支持的重要来源,受到用户的广泛关注和参与。对在线医疗社区进行用户文本挖掘能够揭示社区中用户的参与行为,从而优化... 随着互联网时代的快速发展,在线医疗社区的出现打破了时空限制,为用户提供了丰富的医疗信息和情感帮助,已经成为社会支持的重要来源,受到用户的广泛关注和参与。对在线医疗社区进行用户文本挖掘能够揭示社区中用户的参与行为,从而优化其用户管理和信息推荐。已有的研究对象主要集中在英文在线医疗社区,鲜有文献对中文在线医疗社区进行研究。基于社会支持理论,本文设计了一个中文用户文本挖掘流程来研究中文在线医疗社区中的社会支持类型和用户参与。利用中文文本挖掘及机器学习方法,对中文糖尿病社区"甜蜜家园"进行研究。本文利用LDA(Latent Dirichlet Allocation)模型进行特征提取来构建低维度文本表示向量,采用二元分类法将用户文本分为不同的社会支持类型。最后,基于分类结果使用K-means算法进行用户聚类来识别用户角色。相比传统的特征提取方法,利用LDA进行特征提取能显著地降低数据维度,优化分类模型,提高分类准确率和分类效率。结果表明,本文提出的中文用户文本挖掘流程在文本分类与用户聚类中效果显著。 展开更多
关键词 在线医疗社区 lda模型 特征提取 文本分类 用户聚类
下载PDF
基于LDA高频词扩展的中文短文本分类 被引量:38
2
作者 胡勇军 江嘉欣 常会友 《现代图书情报技术》 CSSCI 北大核心 2013年第6期42-48,共7页
针对短文本特征稀疏、噪声大等特点,提出一种基于LDA高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用TF-IDF方法将短文本表示成向量,再利用LDA得到每个文本的隐主题特征,将概率大于某一阈值的隐主题对应的高... 针对短文本特征稀疏、噪声大等特点,提出一种基于LDA高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用TF-IDF方法将短文本表示成向量,再利用LDA得到每个文本的隐主题特征,将概率大于某一阈值的隐主题对应的高频词扩展到文本中,以降低短文本的噪声和稀疏性影响。实验证明,这种方法的分类性能高于常规分类方法。 展开更多
关键词 短文本分类 高频词 lda 特征扩展
原文传递
基于词向量的文本特征选择方法研究 被引量:27
3
作者 陈磊 李俊 《小型微型计算机系统》 CSCD 北大核心 2018年第5期991-994,共4页
文本分类的效果依赖于文本特征选择的好坏.传统的特征选择方法,利用特征的词频或者特征与类别的关系,进行特征选择.不仅没有考虑特征的语义,而且大多只能用于标注数据集的特征选择.本文提出LDA词向量特征选择方法和Word2vec词向量特征... 文本分类的效果依赖于文本特征选择的好坏.传统的特征选择方法,利用特征的词频或者特征与类别的关系,进行特征选择.不仅没有考虑特征的语义,而且大多只能用于标注数据集的特征选择.本文提出LDA词向量特征选择方法和Word2vec词向量特征选择方法,分别在主题空间和词语上下文关系上,学习特征的语义,进行特征选择.语料经特征选择后,利用向量空间模型进行分类.在复旦语料上的实验结果表明,基于词向量的特征选择分类效果相对于传统的特征选择得到了改善.并且,基于词向量的特征选择是一种无监督的方法,无需标注类别信息. 展开更多
关键词 特征选择 lda Word2vec 词向量 文本分类
下载PDF
基于PLS、LDA的中医面诊光泽识别研究 被引量:26
4
作者 李福凤 李国正 +3 位作者 周睿 赵瑞玮 王忆勤 郑晓燕 《世界科学技术-中医药现代化》 2011年第6期977-981,共5页
目的:探讨中医面诊中光泽信息客观识别的方法。方法:结合计算机视觉,利用计算机辅助进行面部光泽判断,尝试将偏最小二乘法(PLS)和线性判别式分析(LDA)方法在4种不同色彩空间下进行实验,做为面部光泽信息提取的手段。结果:PLS、LDA、2DLD... 目的:探讨中医面诊中光泽信息客观识别的方法。方法:结合计算机视觉,利用计算机辅助进行面部光泽判断,尝试将偏最小二乘法(PLS)和线性判别式分析(LDA)方法在4种不同色彩空间下进行实验,做为面部光泽信息提取的手段。结果:PLS、LDA、2DLDA在RGB、HSV、Lab这些3通道的色彩空间上的判断正确率均高于单通道的判断结果;不同的特征抽取方法在不同色彩通道上得到的正确率不同:PLS方法在Lab颜色空间上对人脸光泽的判断正确率为89.06%,LDA在Lab颜色空间上判断正确率为88.69%,2DLDA在RGB颜色空间上判断正确率为89.00%。结论:不同特征抽取方法对于识别中医面诊光泽信息都具有积极作用,为中医望诊中光泽的量化检测技术研究提供了一种新的方法和思路。 展开更多
关键词 中医面诊 面诊光泽 特征抽取 PLS lda 2Dlda
下载PDF
基于XGBoost算法的用户评分预测模型及应用 被引量:26
5
作者 杨贵军 徐雪 赵富强 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第1期118-126,共9页
【目的】基于用户网络评论构建有效的评分预测模型,挖掘用户消费行为特征。【方法】基于LDA模型,量化用户评论为主题特征向量作为解释变量,将用户评分作为被解释变量,采用XGBoost算法,并加入样本扰动和属性扰动生成多个模型进行集成,构... 【目的】基于用户网络评论构建有效的评分预测模型,挖掘用户消费行为特征。【方法】基于LDA模型,量化用户评论为主题特征向量作为解释变量,将用户评分作为被解释变量,采用XGBoost算法,并加入样本扰动和属性扰动生成多个模型进行集成,构建用户评分预测模型。【结果】针对某汽车门户网站的用户评论评分预测结果表明,该模型较好地揭示了用户对汽车商品的偏好。较逻辑回归、随机森林算法,其预测准确度分别高出13.73%、0.64%,且具有较高的计算效率。【局限】未融合其他方面的数据对用户行为特征进行更全面的刻画。【结论】将用户评论量化为主题特征向量,基于XGBoost算法能够准确、高效地预测用户评分。 展开更多
关键词 评分预测 XGBoost算法 lda主题模型 文本特征提取 用户评论
原文传递
大数据下监控网络混合入侵信息检索仿真 被引量:18
6
作者 何保荣 《沈阳工业大学学报》 EI CAS 北大核心 2019年第6期654-658,共5页
针对传统的监控入侵信息检索方法存在检索精度低、召回率高、检索耗时长等问题,提出一种大数据下监控网络混合入侵信息检索方法.采用遗传算法对特征集进行优化选择,引入偏F检验对选择最优子集,组成优化特征集,并构建冗余信息消除模型,... 针对传统的监控入侵信息检索方法存在检索精度低、召回率高、检索耗时长等问题,提出一种大数据下监控网络混合入侵信息检索方法.采用遗传算法对特征集进行优化选择,引入偏F检验对选择最优子集,组成优化特征集,并构建冗余信息消除模型,消除混合入侵信息中的冗余信息.以信息检索理论为依据,引用LDA模型对文档的话题进行建模,构建入侵信息检索模型,完成大数据下监控网络混合入侵信息检索.结果表明,所提方法的检索精度较高,能够有效提高入侵信息检索效率,降低检索耗时,且召回率平均值约为24%,优于其他方法,具有一定可行性. 展开更多
关键词 大数据 监控网络 混合入侵信息 冗余 检索 特征集 lda模型 召回率
下载PDF
利用《知网》和领域关键词集扩展方法的短文本分类研究 被引量:17
7
作者 李湘东 曹环 +1 位作者 丁丛 黄莉 《现代图书情报技术》 CSSCI 2015年第2期31-38,共8页
【目的】实现短文本特征扩展,提高短文本分类性能。【方法】按照特征词和隐含主题两种特征粒度,分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集。利用概率主题模型提取待分类文本的主题概率分布,将概率大于某一阈值的主... 【目的】实现短文本特征扩展,提高短文本分类性能。【方法】按照特征词和隐含主题两种特征粒度,分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集。利用概率主题模型提取待分类文本的主题概率分布,将概率大于某一阈值的主题对应的关键词扩展到待分类文本中。借助《知网》计算待分类文本与各领域关键词集的语义相似度。【结果】与LDA模型的短文本分类算法相比,本文提出的分类算法在复旦语料、Sogou语料和微博语料上的Macro_F1分别平均提高4.9%、5.9%和4.2%,在Micro_F1上分别平均提高4.6%、6.2%和2.8%。而与VSM的短文本分类算法相比,本文方法在各语料上都提高13%以上。且实验证明结合领域高频词和主题核心词的特征扩展方法的分类性能优于仅使用领域高频词或主题核心词进行特征扩展的方法。【局限】短文本中存在很多《知网》未收录的特征词,无法利用《知网》计算相似度,影响分类效果。【结论】本文方法能有效提高短文本分类性能。 展开更多
关键词 短文本分类 关键词集 lda 特征扩展 知网
原文传递
基于小波特征的单字符汉字字体识别 被引量:11
8
作者 陈力 丁晓青 《电子学报》 EI CAS CSCD 北大核心 2004年第2期177-180,共4页
汉字图像不仅包含了汉字的字符信息 ,还包含了汉字的字体信息 .字体信息是版面分析、理解和恢复的重要依据 ,还有助于实现高性能字符识别系统 .目前的字体识别方法还不能对单个汉字字符的字体进行识别 .本文提出了一种新的字体识别方法 ... 汉字图像不仅包含了汉字的字符信息 ,还包含了汉字的字体信息 .字体信息是版面分析、理解和恢复的重要依据 ,还有助于实现高性能字符识别系统 .目前的字体识别方法还不能对单个汉字字符的字体进行识别 .本文提出了一种新的字体识别方法 ,能够在不知道汉字字符的前提下 ,识别单个汉字的字体 .首先对单个汉字的字符图像进行小波分解 ,在变换图像上提取小波特征 .提取的小波特征经Box Cox变换整形后 ,用线性鉴别分析技术 (LDA)进行特征选择 ,得到字体识别特征 .所使用的分类器是MQDF分类器 .在包含 7种字体的样本集上进行的实验表明 ,本文提出的方法能够在不知道汉字字符的前提下 ,对单个汉字的字体进行有效识别 ,基于单字的字体识别率达到 97.35 % . 展开更多
关键词 字体识别 单字符 小波特征 lda MQDF
下载PDF
基于复合加权LDA模型的书目信息分类方法研究 被引量:14
9
作者 李湘东 丁丛 高凡 《情报学报》 CSSCI CSCD 北大核心 2017年第4期352-360,共9页
以书目信息为分类对象的自动分类研究对信息资源组织具有重要意义。本文以概率主题模型LDA作为书目信息的文本表示模型,以克服因文本短小而产生的特征稀疏问题;以书目信息的体例结构和所在类目的类别区分能力分别实现两种不同的特征加... 以书目信息为分类对象的自动分类研究对信息资源组织具有重要意义。本文以概率主题模型LDA作为书目信息的文本表示模型,以克服因文本短小而产生的特征稀疏问题;以书目信息的体例结构和所在类目的类别区分能力分别实现两种不同的特征加权策略,在此基础上构建复合加权策略,使获取的特征词集既不向高频词倾斜,也更能代表书目信息的所属类别。将复合加权策略融合于LDA、提出一种基于复合加权LDA的书目信息分类方法。使用公开和自建的书目信息语料进行对比实验,验证和分析复合加权策略的有效性,实验显示本文提出的复合加权LDA分类方法的分类性能优于仅考虑其中一种特征加权策略的LDA分类方法。 展开更多
关键词 文本分类 lda模型 特征加权 书目信息 文本体例结构
下载PDF
基于Labeled-LDA模型的文本特征提取方法 被引量:13
10
作者 王瑞 龙华 +1 位作者 邵玉斌 杜庆治 《电子测量技术》 2020年第1期141-146,共6页
针对LDA主题模型文本特征提取时主题识别不明确的问题,提出一种基于Labeled-LDA模型的文本特征提取方法。使用LDA主题模型对文本隐含主题中的主题词进行提取,根据TF-IDF算法实现对文本类别的关键词进行提取。通过文本simhash算法对提取... 针对LDA主题模型文本特征提取时主题识别不明确的问题,提出一种基于Labeled-LDA模型的文本特征提取方法。使用LDA主题模型对文本隐含主题中的主题词进行提取,根据TF-IDF算法实现对文本类别的关键词进行提取。通过文本simhash算法对提取出的主题词与关键词进行相似度计算,找到文本隐含主题的类别并提取特征词。实验表明结合后的特征提取方法比TF-IDF、传统LDA主题模型的文本特征提取方法,获得更高的分类精度,其中准确度提高了3.40%,召回率提高了4.40%,F值提高了3.92%。 展开更多
关键词 Labeled-lda TF-IDF Simhash 文本特征提取
下载PDF
基于可扩展LDA模型的微博话题特征抽取研究 被引量:12
11
作者 邱明涛 马静 +1 位作者 张磊 姚兆旭 《情报科学》 CSSCI 北大核心 2017年第4期22-26,31,共6页
【目的/意义】提出一种基于可扩展LDA模型的微博话题特征抽取方法。【方法/过程】利用词语权重调整方法筛选高贡献度高频词语;基于bootstrap思想,迭代产生特征词条候选集;引入信息熵值理论筛选话题词条;并利用四维泛化分类实现对特征词... 【目的/意义】提出一种基于可扩展LDA模型的微博话题特征抽取方法。【方法/过程】利用词语权重调整方法筛选高贡献度高频词语;基于bootstrap思想,迭代产生特征词条候选集;引入信息熵值理论筛选话题词条;并利用四维泛化分类实现对特征词条的泛化和归类。【结果/结论】本文以真实新浪微博数据为实验对象,实验结果表明基于扩展LDA模型的特征词提取方法可弥补传统LDA模型在话题可解释性上的不足,有效地对微博文本进行话题特征抽取。 展开更多
关键词 lda模型 微博话题 话题特征 特征抽取
原文传递
一种基于PCA和LDA融合的人脸识别算法研究 被引量:12
12
作者 张娜 刘坤 +1 位作者 韩美林 陈晨 《电子测量技术》 2020年第13期72-75,共4页
人脸识别技术易受人脸表情变化、姿态变化、光照变化、遮挡以及采集的高分辨率图像的影响,使得图像维数增大。为了提高人脸识别算法的鲁棒性,提出一种基于PCA与LDA融合的人脸识别算法,先采用PCA算法对人脸图像进行全局特征提取投影到低... 人脸识别技术易受人脸表情变化、姿态变化、光照变化、遮挡以及采集的高分辨率图像的影响,使得图像维数增大。为了提高人脸识别算法的鲁棒性,提出一种基于PCA与LDA融合的人脸识别算法,先采用PCA算法对人脸图像进行全局特征提取投影到低维空间,再采用LDA算法进行人脸类别鉴别寻找最优的投影空间,实现人脸数据的进一步压缩,最后采用最近邻分类器进行识别。实验结果表明采用该融合算法能增强人脸识别技术的鲁棒性。 展开更多
关键词 人脸识别 PCA算法 lda算法 特征融合
下载PDF
基于多维度特征与LDA模型的城市旅游画像演化分析 被引量:12
13
作者 叶光辉 徐彤 +1 位作者 毕崇武 李心悦 《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第11期121-130,共10页
【目的】以具有时间属性的公众城市认知数据为研究样本,探寻城市画像主题变化特征与规律。【方法】选择城市旅游业为研究分面,利用LDA主题模型与多维度城市画像主题描述框架,从主题发展历程、一级与二级特征维度下的主题演化趋势这三个... 【目的】以具有时间属性的公众城市认知数据为研究样本,探寻城市画像主题变化特征与规律。【方法】选择城市旅游业为研究分面,利用LDA主题模型与多维度城市画像主题描述框架,从主题发展历程、一级与二级特征维度下的主题演化趋势这三个角度共同刻画城市画像在时间轴线上的变迁。【结果】就中国香港而言,城市旅游画像在主题演化过程中并未出现周期性波动规律,但在主题感知维度的表现却有着明显的主次之分;旅游游览、旅游交通以及旅游娱乐是构成公众对于中国香港城市形象认知体系的主要属性;其中,旅游游览往往总领主题演化的发展方向,旅游娱乐则主要分布于演化轴线的前期与末期,而旅游交通处于演化中期;除此以外,演化路径中各主题在各主导维度下又分别有着稳定的标志性意象载体。【局限】研究结论有待综合多样化的城市数据以及分析方式实现进一步深化与拓展。【结论】本文提出的基于旅游特征维度的主题演化研究思路,实现了城市旅游画像的演化轨迹描绘,同时研究结论能够为政府及行业相关举措的规划与实施提供参考。 展开更多
关键词 城市画像 演化分析 特征维度 lda模型
原文传递
线性判别分析特征提取稀疏表示人脸识别方法 被引量:11
14
作者 张勇 党兰学 《郑州大学学报(工学版)》 CAS 北大核心 2015年第2期94-98,共5页
针对稀疏表示分类(SRC)算法采取随机脸法提取的数据特征判别力较弱问题,提出一种线性判别分析特征提取稀疏表示人脸识别方法.该方法首先采用线性判别分析算法求解最优判别投影子空间,然后把训练样本投影到该子空间以提取相应的数据特征... 针对稀疏表示分类(SRC)算法采取随机脸法提取的数据特征判别力较弱问题,提出一种线性判别分析特征提取稀疏表示人脸识别方法.该方法首先采用线性判别分析算法求解最优判别投影子空间,然后把训练样本投影到该子空间以提取相应的数据特征,并用训练样本的数据特征做字典来表示测试样本数据特征.更进一步来说就是,通过提取出测试样本稀疏特征的向量,和测试样本的数据特征进行比对找出其联系和差别并表示出比对后的残差.最后根据构造的残差找出样本的类别来实现其识别目的.通过在Extend Yale B和CMU PIE人脸数据库上一系列的测试,证明该方法具有很好的识别效果. 展开更多
关键词 稀疏表示 特征提取 人脸识别
下载PDF
基于自然语言识别的上海市报警灾情数据识别及其气象灾害特征分析研究 被引量:9
15
作者 杨辰 潘顺 严岩 《自然灾害学报》 CSCD 北大核心 2021年第3期142-150,共9页
上海作为特大型城市,其城市运行极易受到气象条件影响。受制于传统的灾害上报和普查渠道,灾情数据量较为有限且时效性不强。研究基于110气象灾情数据,采用自然语言处理算法,对报警灾情描述信息进行分析提取,识别灾种、承灾体和影响程度... 上海作为特大型城市,其城市运行极易受到气象条件影响。受制于传统的灾害上报和普查渠道,灾情数据量较为有限且时效性不强。研究基于110气象灾情数据,采用自然语言处理算法,对报警灾情描述信息进行分析提取,识别灾种、承灾体和影响程度等信息,并进一步分析了气象灾害的时空特征以及致灾的气象条件。结果表明,该方法可以较好地提取气象灾害的类别、承灾体及影响信息。近10a灾情分布年际差异较大,月分布以8月和10月为最多,小时分布呈现双峰特征,且工作日更为明显。暴雨和大风的灾情空间分布均以中心城区为最高,其次为紧邻中心城区的外环以内区域以及各区的城市副中心。结合气象资料分析,短时强降雨和长时间的较强降雨是引发暴雨灾害的重要因素,瞬时大风往往会引起大风灾害,而台风和持续性强降水是造成灾情大量爆发的主要原因。 展开更多
关键词 110灾情 lda TF-IDF 特征分析
下载PDF
Gait Recognition by Cross Wavelet Transform and Graph Model 被引量:8
16
作者 Sagar Arun More Pramod Jagan Deore 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2018年第3期718-726,共9页
In this paper, a multi-view gait based human recognition system using the fusion of two kinds of features is proposed.We use cross wavelet transform to extract dynamic feature and bipartite graph model to extract stat... In this paper, a multi-view gait based human recognition system using the fusion of two kinds of features is proposed.We use cross wavelet transform to extract dynamic feature and bipartite graph model to extract static feature which are coefficients of quadrature mirror filter(QMF)-graph wavelet filter bank. Feature fusion is done after normalization. For normalization of features, min-max rule is used and mean-variance method is used to find weights for normalized features. Euclidean distance between each feature vector and center of the cluster which is obtained by k-means clustering is used as similarity measure in Bayesian framework. Experiments performed on widely used CASIA B gait database show that, the fusion of these two feature sets preserve discriminant information. We report 99.90 % average recognition rate. 展开更多
关键词 Binary sequences feature extraction identification of persons linear discriminant analysis(lda)
下载PDF
改进的PCA人脸识别算法研究 被引量:8
17
作者 周松锋 戴曙光 《软件导刊》 2018年第2期15-18,共4页
主成分分析法(PCA)由于具有高识别率和简便性的优点,成为人脸识别技术学习者的首选。介绍了K-L变换和PCA算法的主要步骤,由于PCA算法对异常值很敏感,因此在PCA基础上进行改进,提出了PCA-LDA人脸识别方法。该方法通过PCA算法求得训练样... 主成分分析法(PCA)由于具有高识别率和简便性的优点,成为人脸识别技术学习者的首选。介绍了K-L变换和PCA算法的主要步骤,由于PCA算法对异常值很敏感,因此在PCA基础上进行改进,提出了PCA-LDA人脸识别方法。该方法通过PCA算法求得训练样本集的特征空间,接着执行LDA算法获得两者融合的特征空间,然后对投影于特征空间的人脸进行训练及识别。实验结果表明,改进的PCA-LDA人脸识别算法比传统的PCA算法识别率高,速度更快,很好地综合了两个算法的优点,达到了预期效果。 展开更多
关键词 图像处理 人脸识别 PCA算法 lda算法 特征空间
下载PDF
基于主题的SE-TextRank情感摘要方法 被引量:8
18
作者 刘志明 于波 +3 位作者 欧阳纯萍 余颖 阳小华 翟云 《情报工程》 2017年第3期97-104,共8页
技术的目的是以简洁的形式准确表达文章的核心情感内容。为解决不同的文档结构及内容特征等问题对摘要结果的影响,提出了一种基于主题的SE-TextRank情感摘要方法。通过LDA模型自动获取收敛后的文本主题,利用余弦距离算法进行主题句子分... 技术的目的是以简洁的形式准确表达文章的核心情感内容。为解决不同的文档结构及内容特征等问题对摘要结果的影响,提出了一种基于主题的SE-TextRank情感摘要方法。通过LDA模型自动获取收敛后的文本主题,利用余弦距离算法进行主题句子分组,使用传统多特征融合以及SE-TextRank情感摘要算法对组内中心句抽取,最终获取目的摘要。实验表明,采用此方法能够更为高效的获取新闻文本摘要结果。 展开更多
关键词 文本摘要 lda模型 余弦距离 SE-TextRank 特征融合
下载PDF
基于特征融合的K-means微博话题发现模型 被引量:7
19
作者 李海磊 杨文忠 +2 位作者 李东昊 温杰彬 钱芸芸 《电子技术应用》 2020年第4期24-28,33,共6页
针对传统话题检测方法在微博短文本上存在高维稀疏的缺陷,提出了一种基于特征融合的K-means微博话题发现模型。为了更好地表达微博话题的语义信息,使用在句子中共现的词对向量模型(Biterm_VSM)代替传统的向量空间模型(Vector Space Mode... 针对传统话题检测方法在微博短文本上存在高维稀疏的缺陷,提出了一种基于特征融合的K-means微博话题发现模型。为了更好地表达微博话题的语义信息,使用在句子中共现的词对向量模型(Biterm_VSM)代替传统的向量空间模型(Vector Space Model,VSM),并结合主题模型(Latent Dirichlet Allocation,LDA)挖掘出微博短文本中的潜在语义,把两个模型得到的特征进行特征融合,并应用K-means聚类算法进行话题的发现。实验结果表明,与传统的话题检测方法相比,该模型的调整兰德系数(Adjusted Rand index,ARI)为0.80,比传统的话题检测方法提高了3%~6%。 展开更多
关键词 话题检测 词对向量模型 lda 特征融合 K-MEANS
下载PDF
网络舆情话题漂移路径研究 被引量:5
20
作者 朱恒民 钱莉 +1 位作者 杨欣谊 魏静 《情报杂志》 CSSCI 北大核心 2022年第6期108-113,119,共7页
[研究目的]研究舆情话题的漂移路径,以期描述舆情事件发展过程中话题之间的来龙去脉。[研究方法]以“新冠肺炎”疫情事件为例,通过词特征分析得出从特征词的微观视角研究话题漂移的可行性;基于LDA话题模型对不同时间片中的微博文档进行... [研究目的]研究舆情话题的漂移路径,以期描述舆情事件发展过程中话题之间的来龙去脉。[研究方法]以“新冠肺炎”疫情事件为例,通过词特征分析得出从特征词的微观视角研究话题漂移的可行性;基于LDA话题模型对不同时间片中的微博文档进行话题抽取并结合词热度特征计算漂移概率,进而描绘出话题在时间片上的漂移路径。通过设计对比实验,验证方法的有效性。[研究结论]在话题漂移的过程中,尽管两个话题的内容有较大差异,但往往包含着一些相同的特征词,且共有特征词在不同话题上的热度呈现出不同的变化趋势。 展开更多
关键词 网络舆情 舆情话题 话题识别 话题漂移 漂移路径 特征词 lda
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部