期刊文献+
共找到72篇文章
< 1 2 4 >
每页显示 20 50 100
基于语言建模的文本情感分类研究 被引量:23
1
作者 胡熠 陆汝占 +2 位作者 李学宁 段建勇 陈玉泉 《计算机研究与发展》 EI CSCD 北大核心 2007年第9期1469-1475,共7页
提出了一种基于语言建模的文本情感分类的方法.将文本的情感倾向标记为"赞扬"或"批评",可以为文本提供主题之外的语义信息.为此提出了从训练数据中分别估计出代表"赞扬"和"批评"两种情感倾向... 提出了一种基于语言建模的文本情感分类的方法.将文本的情感倾向标记为"赞扬"或"批评",可以为文本提供主题之外的语义信息.为此提出了从训练数据中分别估计出代表"赞扬"和"批评"两种情感倾向的语言模型,然后通过比较测试文本自身的语言模型和这两种训练好的情感模型之间的Kull-back-Leibler距离,分类测试文本的思路.各个模型的参数分别选用词形特征的unigram和bigram,而相应的参数估计也分别尝试了最大似然和平滑两种策略.当在电影评论语料上和代表不同分类模型的支持向量机及朴素贝叶斯分类器进行比较时,语言建模的方法表现出了较好的分类性能和鲁棒性. 展开更多
关键词 情感分类 语言建模 kl距离 监督学习 鲁棒性
下载PDF
基于KL距离的自适应阈值网络流量异常检测 被引量:20
2
作者 蒋华 张红福 +1 位作者 罗一迪 王鑫 《计算机工程》 CAS CSCD 北大核心 2019年第4期108-113,118,共7页
针对现有网络流量异常检测方法检测精度低且对网络环境动态变化适应性差的问题,根据网络流量在相邻时间周期内的强相关性特性,提出一种自适应阈值的网络流量异常检测方法。利用滑动窗口控制KL距离值数量,建立指数加权移动平均模型获取... 针对现有网络流量异常检测方法检测精度低且对网络环境动态变化适应性差的问题,根据网络流量在相邻时间周期内的强相关性特性,提出一种自适应阈值的网络流量异常检测方法。利用滑动窗口控制KL距离值数量,建立指数加权移动平均模型获取下一时刻的KL距离预测值,并采用滑动窗口划分的KL距离子序列与预测值确定自适应阈值范围,通过判断观测值是否在自适应阈值范围内实现网络流量异常检测。实验结果表明,该方法能有效检测网络流量异常,具有较高的检测精度。 展开更多
关键词 网络流量 异常检测 自适应阈值 kl距离 指数加权移动平均模型 滑动窗口
下载PDF
基于对称KL距离的相似性度量方法 被引量:18
3
作者 姚志均 刘俊涛 +1 位作者 周瑜 刘文予 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第11期1-4,38,共5页
提出了一种基于对称KL距离的空间直方图相似性度量方法.将空间直方图中的每个区间的空间分布看作一个带权重的高斯分布,其权重为该区间的概率值,均值和协方差矩阵为该区间内所有像素坐标的均值和协方差矩阵;然后计算2个空间直方图对应... 提出了一种基于对称KL距离的空间直方图相似性度量方法.将空间直方图中的每个区间的空间分布看作一个带权重的高斯分布,其权重为该区间的概率值,均值和协方差矩阵为该区间内所有像素坐标的均值和协方差矩阵;然后计算2个空间直方图对应区间之间的相似度,即计算2个带权重的高斯分布之间的对称KL距离.理论和实验证明:提出的相似性度量方法的区分能力优于已有度量方法,视频跟踪结果也比已有方法更稳定、更精确. 展开更多
关键词 相似性度量 空间直方图 kl距离 高斯分布 目标跟踪
原文传递
基于LDA的新闻话题子话题划分方法 被引量:18
4
作者 赵爱华 刘培玉 郑燕 《小型微型计算机系统》 CSCD 北大核心 2013年第4期732-737,共6页
针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题... 针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题间文本相似度较高的特点,引入主题特征词相关性分析,采用改进的KL距离公式,计算新闻文档之间相似度,有效区分了文档内容相似但话题重点不同的报道;最后通过single-pass增量聚类算法进行文档聚类,实现子话题划分.实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率. 展开更多
关键词 潜在狄利克雷分布(LDA) 子话题划分 主题特征词 kl距离 相似度计算
下载PDF
基于Kullback-Leiber距离的迁移仿射聚类算法 被引量:17
5
作者 毕安琪 王士同 《电子与信息学报》 EI CSCD 北大核心 2016年第8期2076-2084,共9页
针对迁移聚类问题,该文提出一种新的基于Kullback-Leiber距离的迁移仿射聚类算法(TAP_KL)。该算法从概率角度重新解释AP算法的目标函数,并借助于信息论中最常见的一种距离度量,即Kullback-Leiber距离,测量源域与目标域代表点的相似性。... 针对迁移聚类问题,该文提出一种新的基于Kullback-Leiber距离的迁移仿射聚类算法(TAP_KL)。该算法从概率角度重新解释AP算法的目标函数,并借助于信息论中最常见的一种距离度量,即Kullback-Leiber距离,测量源域与目标域代表点的相似性。另外,通过详细分析TAP_KL算法与AP算法的目标函数,得出一个重要结论,即可以将源域与目标域的相似性嵌入到目标域数据集相似性矩阵的计算中,从而直接利用AP算法的优化算法优化TAP_KL算法的目标函数,解决基于代表点的迁移聚类问题。最后,通过基于4个数据集的仿真实验,进一步验证了TAP_KL算法在解决迁移聚类问题时的有效性。 展开更多
关键词 仿射聚类算法 迁移学习 人脸数据集 概率框架 kl距离
下载PDF
一种基于KL-AEPF的无人机侦察移动目标定位算法 被引量:16
6
作者 陈丹琪 金国栋 +2 位作者 谭力宁 苏伟 芦利斌 《仪器仪表学报》 EI CAS CSCD 北大核心 2019年第9期227-236,共10页
基于EPF的无人机侦察移动目标定位算法在采样阶段需要利用EKF算法计算所有粒子的均值和协方差,导致其计算量大。本文提出了一种基于KL距离的自适应EPF改进算法,该方法在采样阶段利用EKF算法更新前半部分粒子,后半部分粒子仍通过先验概... 基于EPF的无人机侦察移动目标定位算法在采样阶段需要利用EKF算法计算所有粒子的均值和协方差,导致其计算量大。本文提出了一种基于KL距离的自适应EPF改进算法,该方法在采样阶段利用EKF算法更新前半部分粒子,后半部分粒子仍通过先验概率分布更新,然后根据两个粒子集概率分布间的KL距离自适应更新当前时刻的粒子数。在保证精度的同时选择合适的粒子数目,大幅度降低计算量,提高运算速度。通过实测飞行数据验证,该算法平均每个采样周期内粒子数为40,平均每个采样周期内计算时间为8 ms。与EPF算法相比,该方法能在保证定位精度的同时明显减少计算耗时,具有一定的工程应用价值。 展开更多
关键词 无人机 目标定位 扩展卡尔曼粒子滤波 kl距离 自适应粒子滤波
下载PDF
利用决策树建立慢性阻塞性肺病中医诊断模型 被引量:14
7
作者 苏翀 任曈 +1 位作者 王国品 殷杰 《计算机工程与应用》 CSCD 北大核心 2019年第3期225-230,共6页
慢性阻塞性肺病主要表现为呼吸困难,严重影响了患者的生存质量。肺活量测定法是目前的主要诊断方法。为了构建和谐医患关系,减少过度检查,从中医诊断的角度,根据已收集的病例资料,利用基于KL距离的决策树建立诊断模型,可实现对患者的初... 慢性阻塞性肺病主要表现为呼吸困难,严重影响了患者的生存质量。肺活量测定法是目前的主要诊断方法。为了构建和谐医患关系,减少过度检查,从中医诊断的角度,根据已收集的病例资料,利用基于KL距离的决策树建立诊断模型,可实现对患者的初步筛查。实验以F-Measure、G-Mean、ROC曲线下面积以及精度召回率曲线下面积作为评价指标,将提出的决策树分别与ID3、C4.5以及CART比较。结果表明,提出的决策树较传统决策树取得了更好的预测效果,对应的评价指标分别达到了0.92、0.894、0.907以及0.9。最后,当应用于临床时,以临床上常用的AUROC作为评价指标,提出的决策树模型达到了0.823,取得了预期效果。 展开更多
关键词 决策树 kl距离 非平衡数据集 慢性阻塞性肺病 中医
下载PDF
基于KL距离的非平衡数据半监督学习算法 被引量:11
8
作者 许震 沙朝锋 +1 位作者 王晓玲 周傲英 《计算机研究与发展》 EI CSCD 北大核心 2010年第1期81-87,共7页
在实际应用中,由于各种原因时常无法直接获得已标识反例,导致传统分类方法暂时失灵,因此,基于正例和未标识集的半监督学习顿时成了理论界研究的热点.研究者们提出了不同的解决方法,然而,这些方法都不能有效处理非平衡的分类问题,尤其当... 在实际应用中,由于各种原因时常无法直接获得已标识反例,导致传统分类方法暂时失灵,因此,基于正例和未标识集的半监督学习顿时成了理论界研究的热点.研究者们提出了不同的解决方法,然而,这些方法都不能有效处理非平衡的分类问题,尤其当隐匿反例非常少或训练集中的实例分布不均匀时.因此,提出了一种基于KL距离的半监督分类算法——LiKL:依次挖掘出未标识集中的最可靠正例和反例,接着使用训练好的增强型分类器来分类.与其他方法相比,不仅提高了分类的查准率和查全率,而且具有鲁棒性. 展开更多
关键词 半监督学习 非平衡 kl距离 朴素贝叶斯 LOGISTIC回归
下载PDF
基于LDA的多源文献主题及其差异研究——以“机器学习”为例 被引量:11
9
作者 张子振 储煜桂 吴小兰 《情报科学》 CSSCI 北大核心 2019年第6期108-112,150,共6页
【目的/意义】期刊论文、学位论文、专利文献是众多学者的重要研究成果,同时也为后来的学者提供了有力的参考价值。本文以"机器学习"领域为例,分别从期刊论文、硕士学位论文、博士学位论文、专利文献角度进行了主题及主题差... 【目的/意义】期刊论文、学位论文、专利文献是众多学者的重要研究成果,同时也为后来的学者提供了有力的参考价值。本文以"机器学习"领域为例,分别从期刊论文、硕士学位论文、博士学位论文、专利文献角度进行了主题及主题差异性分析。【方法/过程】首先从中国知网(CNKI)获取数据。然后,借用LDA分析主题。第三,运用KL距离分析期刊论文、硕士学位论文、博士学位论文、专利文献的相似度差异。【结论】通过本文研究我们发现,期刊论文涉及的研究领域广泛,学位论文关注社会实践意义,专利论文则为学科发展提供支撑。此外,期刊论文与专利论文最为相似,期刊论文与学位论文的差异最大,这为全面了解领域文献提供了一个很好的借鉴。 展开更多
关键词 机器学习 多源文献 LDA模型 kl距离
原文传递
基于时间分布特征的博客突发事件检测 被引量:9
10
作者 林达真 李绍滋 曹冬林 《计算机工程与科学》 CSCD 北大核心 2010年第10期145-149,共5页
博客是目前网络舆论的重要载体之一,如何自动检测博客中的突发事件对于舆情分析与疏导具有重要的研究价值。针对目前突发事件检测中存在的时间信息有歧义的虚假突发事件问题,本文提出了一种基于时间分布特征的博客突发事件检测方法。该... 博客是目前网络舆论的重要载体之一,如何自动检测博客中的突发事件对于舆情分析与疏导具有重要的研究价值。针对目前突发事件检测中存在的时间信息有歧义的虚假突发事件问题,本文提出了一种基于时间分布特征的博客突发事件检测方法。该方法通过波峰检测和计算事件文档与背景语料文档之间、事件相关文档和不相关文档之间的时间分布差异来判断该事件在时间特征上是否具有突发性和关联性。实验结果表明,该方法可有效检测博客中的突发事件并可有效去除时间信息有歧义的虚假突发事件。 展开更多
关键词 时间分布特征 kl距离 时间信息明确的事件 时间信息有歧义的事件
下载PDF
基于KL距离的TAN分类器判别性学习方法 被引量:8
11
作者 冯奇 田凤占 黄厚宽 《模式识别与人工智能》 EI CSCD 北大核心 2008年第6期806-811,共6页
树增强朴素贝叶斯(TAN)分类器在模型的复杂性和分类精度之间实现较好折衷,成为当前分类器学习的一个研究热点.为了提高 TAN 分类器的分类准确率,本文提出一种基于 KL 距离的 TAN 分类器判别性学习方法.首先用 EAR 方法学习 TAN 分类器... 树增强朴素贝叶斯(TAN)分类器在模型的复杂性和分类精度之间实现较好折衷,成为当前分类器学习的一个研究热点.为了提高 TAN 分类器的分类准确率,本文提出一种基于 KL 距离的 TAN 分类器判别性学习方法.首先用 EAR 方法学习 TAN 分类器的结构,然后用基于 KL 距离的目标函数优化 TAN 的参数.在标准数据集上的实验结果表明,用该方法学习的 TAN 分类器具有较高的分类精度. 展开更多
关键词 树增强朴素贝叶斯(TAN)分类器 判别性学习 kl距离 EAR
原文传递
改进的TOPSIS模型在陕西省农业干旱脆弱性区划中的应用 被引量:9
12
作者 徐晗 《干旱地区农业研究》 CSCD 北大核心 2016年第4期251-258,共8页
以陕西10个地市作为研究对象,从暴露性、敏感性以及恢复能力三个方面选取12个指标构建农业干旱脆弱性评价指标体系,应用改进的TOPSIS模型计算得出各市区的相对贴近度,对陕西省农业干旱脆弱性进行综合评价。结果表明:陕西省农业干旱脆弱... 以陕西10个地市作为研究对象,从暴露性、敏感性以及恢复能力三个方面选取12个指标构建农业干旱脆弱性评价指标体系,应用改进的TOPSIS模型计算得出各市区的相对贴近度,对陕西省农业干旱脆弱性进行综合评价。结果表明:陕西省农业干旱脆弱性存在地域性差异,10个市区的农业干旱脆弱性由高到低排序依次为安康(0.7841)>商洛(0.7650)>汉中(0.6939)>西安(0.5977)>榆林(0.4657)>延安(0.4605)>渭南(0.4555)>铜川(0.4319)>宝鸡(0.3525)>咸阳(0.2996),整体呈现"南高北低"的分布格局;从暴露性来看,陕西省农业干旱暴露性指数最高为渭南,其次为咸阳和西安,其它市区均较低;从敏感性来看,陕西省农业干旱敏感性分布两极分化严重,主要表现为陕南地区敏感性总体偏高,关中地区和陕北地区除铜川市和延安市敏感性较高外,均处于较低水平;从恢复能力来看,陕西省农业干旱的恢复力分布无明显规律,按其恢复力由高到底排序依次为:延安>渭南>榆林>咸阳>西安>铜川>宝鸡>汉中>安康>商洛。改进的TOPSIS模型能较合理地从整体上对农业干旱脆弱性进行评价分区,符合实际情况,为其他多属性综合评价提供了一个新的思路和算法。 展开更多
关键词 农业干旱脆弱性 评价 改进TOPSIS模型 kl距离 熵权法 陕西省
下载PDF
基于KL距离加权和局部邻域信息的CV模型 被引量:7
13
作者 刘燕杰 卢振泰 +1 位作者 冯前进 陈武凡 《电子学报》 EI CAS CSCD 北大核心 2011年第6期1447-1451,共5页
本文提出了基于Kullback-Leibler(KL)距离加权和局部邻域信息的Chen-Vese(CV)模型.引入KL距离作为内外部局部区域能量的权值系数;计算曲线附近点的局部邻域能量之和作为模型的内部能量,从而提高对边缘的检测性能,并降低区域内灰度不均... 本文提出了基于Kullback-Leibler(KL)距离加权和局部邻域信息的Chen-Vese(CV)模型.引入KL距离作为内外部局部区域能量的权值系数;计算曲线附近点的局部邻域能量之和作为模型的内部能量,从而提高对边缘的检测性能,并降低区域内灰度不均匀等因素对曲线进化的影响.验证实验采用大量实际临床数据,结果表明该算法能准确地分割医学图像,且能量函数有较好的收敛性. 展开更多
关键词 Chen-Vese(CV)模型 kl距离 局部邻域信息 医学图像分割
下载PDF
应用时空大数据的电力需求侧不平衡数据渐进学习算法 被引量:3
14
作者 俞文瑾 白泽洋 +2 位作者 田东蒙 尹璐 郑皓天 《数学的实践与认识》 2023年第6期197-204,共8页
针对重采样过程中,不平衡数据分类结果G-mean值较低,数据类分布不平衡的问题,考虑到电力需求侧不平衡数据的独特性,提出应用时空大数据的不平衡数据渐进学习算法.基于物联网终端节点采集的动态时空大数据,设计的不平衡数据渐进学习算法... 针对重采样过程中,不平衡数据分类结果G-mean值较低,数据类分布不平衡的问题,考虑到电力需求侧不平衡数据的独特性,提出应用时空大数据的不平衡数据渐进学习算法.基于物联网终端节点采集的动态时空大数据,设计的不平衡数据渐进学习算法,建立基于长短记忆网络的时空大数据处理机制.依据属性值域,选定合适的时空数据与电力需求侧数据进行合成处理,促进数据类分布平衡.按照KL距离计算理念,获取计算不同数据之间的KL距离,并依托于KL距离,设计半监督学习算法,求解与优化电力需求侧不平衡数据渐进学习过程.实验结果表明:所提算法的平均G-mean值为0.93,平均G-mean值最高提升了37%. 展开更多
关键词 时空大数据 电力需求侧 不平衡数据 渐进学习 kl距离 数据合成
原文传递
基于双向KL距离聚类算法的变压器状态异常检测 被引量:6
15
作者 林越 刘廷章 +2 位作者 黄莉荣 奚晓晔 潘建 《广西师范大学学报(自然科学版)》 CAS 北大核心 2018年第4期20-26,共7页
针对欧式距离在某些数据集合相似性度量中存在区分能力差的缺点,本文提出基于双向KL(Kullback-Leibler)距离聚类算法的变压器状态异常检测一般模型及分析方法。以湖州市某变电站历史监测数据对上述模型进行算例分析,结果表明,该方法消... 针对欧式距离在某些数据集合相似性度量中存在区分能力差的缺点,本文提出基于双向KL(Kullback-Leibler)距离聚类算法的变压器状态异常检测一般模型及分析方法。以湖州市某变电站历史监测数据对上述模型进行算例分析,结果表明,该方法消除了欧式距离在变压器状态异常检测中的不足,可有效减少故障漏报信息,具有一定的实用价值。 展开更多
关键词 欧式距离 kl距离 聚类 变压器 异常检测
下载PDF
结合KL距离与图像域分块的SAR图像分割 被引量:6
16
作者 赵泉华 高郡 +1 位作者 赵雪梅 李玉 《控制与决策》 EI CSCD 北大核心 2018年第10期1767-1774,共8页
提出一种结合KL(Kullback-Leibler)距离和图像域分块的SAR图像分割算法.首先,利用规则划分技术将图像域划分成若干规则子块,以子块为处理单元,假设子块内像素服从高斯分布,并构建特征场概率模型;其次,采用广义Potts模型定义刻画邻域子... 提出一种结合KL(Kullback-Leibler)距离和图像域分块的SAR图像分割算法.首先,利用规则划分技术将图像域划分成若干规则子块,以子块为处理单元,假设子块内像素服从高斯分布,并构建特征场概率模型;其次,采用广义Potts模型定义刻画邻域子块相关性的标号场概率模型,根据贝叶斯定理,得到后验概率模型;再次,采用KL距离定义刻画同质区域间统计分布差异的异质性系数,并通过非约束吉布斯表达式构建概率分布函数,结合后验概率和吉布斯概率分布函数建立图像分割模型;然后,设计M-H(Metropolis-Hastings)采样方法,包括改变子块标号操作和分裂子块操作,模拟上述分割模型,从而获得最优分割结果;最后,通过对所提出算法和对比算法的SAR图像分割结果进行分析,充分验证了所提出算法的有效性和优越性. 展开更多
关键词 SAR图像分割 kl距离 规则划分 M-H算法
原文传递
基于博弈论的煤矿生产系统智能化GRA-KL-TOPSIS评价模型
17
作者 褚新胜 盛高永 张海云 《矿业研究与开发》 CAS 北大核心 2024年第9期194-203,共10页
为使煤矿生产系统智能化评估更科学,提出了基于博弈论的煤矿生产系统智能化GRA-KL-TOPSIS评价模型。基于全要素、全流程理论,从综采、综掘、运输、综合保障和安全监控功能5个方面构建了生产系统智能化综合评价指标体系;利用G1法、改进CR... 为使煤矿生产系统智能化评估更科学,提出了基于博弈论的煤矿生产系统智能化GRA-KL-TOPSIS评价模型。基于全要素、全流程理论,从综采、综掘、运输、综合保障和安全监控功能5个方面构建了生产系统智能化综合评价指标体系;利用G1法、改进CRITIC法和博弈论确定指标综合权重,引入盲数理论改进专家给指标赋值的处理方法,应用GRA-KL-TOPSIS方法,通过计算灰色关联贴近度,实现生产系统智能化排序和评估。以3座煤矿为例进行分析,将所建模型的评价结果与VIKOR模型评估结果对比,并基于雷达图法分析子系统智能化差异。结果表明,所建的模型能客观评估煤矿生产系统智能化水平,评估结果与实际调研结论一致,验证了该模型的适应性,可为煤矿生产系统智能化程度的量化评价提供新思路。 展开更多
关键词 煤矿生产系统 智能化 灰色关联分析 逼近理想解 kl距离
原文传递
抗混叠轮廓波变换的脱线中文手写体笔迹识别 被引量:6
18
作者 朱贝贝 尚赵伟 +3 位作者 袁博 国庆 张峰 杨建伟 《计算机工程与应用》 CSCD 北大核心 2011年第24期150-153,共4页
为了进一步提高脱线中文手写体笔迹识别的正确率,提出了一种基于抗混叠轮廓波变换的特征提取算法。抗混叠轮廓波变换不仅具有轮廓波变换的多尺度、多方向特性,同时克服了轮廓波变换中频谱混叠的现象,避免了重构图像出现"划痕"... 为了进一步提高脱线中文手写体笔迹识别的正确率,提出了一种基于抗混叠轮廓波变换的特征提取算法。抗混叠轮廓波变换不仅具有轮廓波变换的多尺度、多方向特性,同时克服了轮廓波变换中频谱混叠的现象,避免了重构图像出现"划痕"现象。实验结果证明,抗混叠轮廓波变换的GGD模型与使用单小波、复小波、轮廓波变换的GGD模型方法比较,识别正确率分别提高了23.5%、7.7%、2.5%。 展开更多
关键词 小波变换 抗混叠轮廓波变换 广义高斯分布(GGD)模型 kl距离
下载PDF
基于动态阈值和命名实体的双重过滤话题追踪 被引量:6
19
作者 魏景璇 鲁燃 张艳辉 《计算机应用研究》 CSCD 北大核心 2015年第4期982-985,共4页
针对话题追踪静态阈值的缺点和虚假相关报道问题,提出一种基于动态阈值和命名实体双重过滤的话题追踪方法。该方法中,研究了KL距离计算初始阈值,并筛选出候选报道;然后,根据报道时间特点研究了动态阈值方法;最后,抽取追踪话题和测试报... 针对话题追踪静态阈值的缺点和虚假相关报道问题,提出一种基于动态阈值和命名实体双重过滤的话题追踪方法。该方法中,研究了KL距离计算初始阈值,并筛选出候选报道;然后,根据报道时间特点研究了动态阈值方法;最后,抽取追踪话题和测试报道中命名实体,计算命名实体间的相似度以及命名实体相同的个数来选出相关报道,完成话题追踪。通过实验证明该方法的可行性,实验结果表明基于动态阈值和命名实体双重过滤方法能有效地改善话题追踪的性能,并有效降低了话题追踪的误报率和漏报率。 展开更多
关键词 动态阈值 命名实体 双重过滤 kl距离 话题追踪
下载PDF
“一带一路”倡议下国内外新闻舆情及其演化分析 被引量:6
20
作者 刘伟 《统计与信息论坛》 CSSCI 北大核心 2018年第6期34-42,共9页
自"一带一路"倡议被提出以来,全世界对该倡议给予了高度重视,国内各领域专家学者也对此开展了丰富的理论和应用研究,其中却鲜有基于具体数据的新闻舆情分析。从国内外媒体对"一带一路"相关新闻报道出发,采用LDA主... 自"一带一路"倡议被提出以来,全世界对该倡议给予了高度重视,国内各领域专家学者也对此开展了丰富的理论和应用研究,其中却鲜有基于具体数据的新闻舆情分析。从国内外媒体对"一带一路"相关新闻报道出发,采用LDA主题模型、层次聚类等统计方法,对新闻文本数据进行挖掘分析,探索"一带一路"倡议正式提出后国内外舆情关注热点,并对热点话题演化路径进行研究,把握"一带一路"建设进程的内在主线和关键节点;同时,依据主题分析结果对部分沿线国家进行分层聚类,尝试从大数据挖掘角度为中国"一带一路"建设献计献策。 展开更多
关键词 数据挖掘 LDA主题模型 kl距离 层次聚类
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部