期刊文献+
共找到1,288篇文章
< 1 2 65 >
每页显示 20 50 100
自然语言处理中主题模型的发展 被引量:233
1
作者 徐戈 王厚峰 《计算机学报》 EI CSCD 北大核心 2011年第8期1423-1436,共14页
主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者... 主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进行了介绍和分析,着重描述这些工作之间的关联性.LDA作为一个概率生成模型,很容易被扩展成其它形式的概率模型.作者对由LDA派生出的各种模型作了粗略分类,并选择了各类的代表性模型简单介绍.主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布,作者对期望最大化算法在主题模型参数估计中的使用进行了分析,这有助于更深刻理解主题模型发展中各项工作的联系. 展开更多
关键词 自然语言处理 主题模型 隐性语义索引 LDA 期望最大化算法 GIBBS采样
下载PDF
科技情报分析中LDA主题模型最优主题数确定方法研究 被引量:122
2
作者 关鹏 王曰芬 《现代图书情报技术》 CSSCI 2016年第9期42-50,共9页
【目的】有效确定科技情报分析中LDA主题模型的最优主题数目。【方法】利用主题相似度度量潜在主题之间的差异,同时结合困惑度提出一种确定LDA最优主题数目的方法,该方法既考虑主题抽取效果同时也考虑模型对新文档的泛化能力。【结果】... 【目的】有效确定科技情报分析中LDA主题模型的最优主题数目。【方法】利用主题相似度度量潜在主题之间的差异,同时结合困惑度提出一种确定LDA最优主题数目的方法,该方法既考虑主题抽取效果同时也考虑模型对新文档的泛化能力。【结果】获取国内新能源领域的科技文献作为数据集,实证结果表明本文提出的最优LDA主题数确定方法与单纯使用困惑度相比,具有更高的主题抽取查准率(91.67%)、F值(86.27%)及科技文献推荐精度(71.25%)。【局限】未针对其他类型的数据集进行新方法的验证,如微博短文本、XML文档等。【结论】本文方法能够有效地从科技文献数据集中抽取辨识度较高的主题,并能够提高科技文献推荐效果。 展开更多
关键词 LDA主题模型 相似度 困惑度 科技情报分析
原文传递
基于LDA主题模型的文本相似度计算 被引量:94
3
作者 王振振 何明 杜永萍 《计算机科学》 CSCD 北大核心 2013年第12期229-232,共4页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。 展开更多
关键词 主题模型 LDA 文本相似度 GIBBS抽样
下载PDF
一种基于密度的自适应最优LDA模型选择方法 被引量:83
4
作者 曹娟 张勇东 +1 位作者 李锦涛 唐胜 《计算机学报》 EI CSCD 北大核心 2008年第10期1780-1787,共8页
主题模型(topic models)被广泛应用在信息分类和检索领域.这些模型通过参数估计从文本集合中提取一个低维的多项式分布集合,用于捕获词之间的相关信息,称为主题(topic).针对模型参数学习过程对主题数目的指定和主题分布初始值非常敏感... 主题模型(topic models)被广泛应用在信息分类和检索领域.这些模型通过参数估计从文本集合中提取一个低维的多项式分布集合,用于捕获词之间的相关信息,称为主题(topic).针对模型参数学习过程对主题数目的指定和主题分布初始值非常敏感的问题,作者用图的形式阐述了LDA(Latent Dirichlet Allocation)模型中主题产生的过程,提出并证明当主题之间的相似度最小时模型最优的理论;基于该理论,提出了一种基于密度的自适应最优LDA模型选择方法.实验证明该方法可以在不需要人工调试主题数目的情况下,用相对少的迭代,自动找到最优的主题结构. 展开更多
关键词 主题模型 主题 LDA 密度
下载PDF
基于LDA话题演化研究方法综述 被引量:85
5
作者 单斌 李芳 《中文信息学报》 CSCD 北大核心 2010年第6期43-49,68,共8页
现实生活中不断有新话题的产生和旧话题的衰减,同时话题的内容也会随着时间发生变化。自动探测话题随时间的演化越来越受到人们的关注。Latent Dirichlet Allocation模型是近年提出的概率话题模型,已经在话题演化领域得到较为广泛的应... 现实生活中不断有新话题的产生和旧话题的衰减,同时话题的内容也会随着时间发生变化。自动探测话题随时间的演化越来越受到人们的关注。Latent Dirichlet Allocation模型是近年提出的概率话题模型,已经在话题演化领域得到较为广泛的应用。该文提出了话题演化的两个方面:内容演化和强度演化,总结了基于LDA话题模型的话题演化方法,根据引入时间的不同方式将目前的研究方法分为三类:将时间信息结合到LDA模型、对文本集合后离散和先离散方法。在详细叙述这三种方法的基础上,针对时间粒度、是否在线等多个特征进行了对比,并且简要描述了目前广泛应用的话题演化评测方法。文章最后分析了目前存在的挑战,并且对该研究方向进行了展望。 展开更多
关键词 话题模型 话题演化 LATENT DIRICHLET ALLOCATION
下载PDF
基于位置社交网络的上下文感知的兴趣点推荐 被引量:63
6
作者 任星怡 宋美娜 宋俊德 《计算机学报》 EI CSCD 北大核心 2017年第4期824-841,共18页
随着基于位置社交网络(Location-Based Social Networks,LBSN)的快速发展,兴趣点(Point-of-Interest,POI)推荐为基于位置的服务提供了前所未有的机会.兴趣点推荐是一种基于上下文信息的位置感知的个性化推荐.然而用户-兴趣点矩阵的极端... 随着基于位置社交网络(Location-Based Social Networks,LBSN)的快速发展,兴趣点(Point-of-Interest,POI)推荐为基于位置的服务提供了前所未有的机会.兴趣点推荐是一种基于上下文信息的位置感知的个性化推荐.然而用户-兴趣点矩阵的极端稀疏给兴趣点推荐的研究带来严峻挑战.为处理数据稀疏问题,文中利用兴趣点的地理、文本、社会、分类与流行度信息,并将这些因素进行有效地融合,提出一种上下文感知的概率矩阵分解兴趣点推荐算法,称为TGSC-PMF.首先利用潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型挖掘兴趣点相关的文本信息学习用户的兴趣话题生成兴趣相关分数;其次提出一种自适应带宽核评估方法构建地理相关性生成地理相关分数;然后通过用户社会关系的幂律分布构建社会相关性生成社会相关分数;另外结合用户的分类偏好与兴趣点的流行度构建分类相关性生成分类相关分数,最后利用概率矩阵分解模型(Probabilistic Matrix Factorization,PMF),将兴趣、地理、社会、分类的相关分数进行有效地融合,从而生成推荐列表推荐给用户感兴趣的兴趣点.该文在一个真实LBSN签到数据集上进行实验,结果表明该算法相比其他先进的兴趣点推荐算法具有更好的推荐效果. 展开更多
关键词 基于位置的社交网络 兴趣点推荐 话题模型 地理相关性 社会相关性 分类相关性 社会媒体
下载PDF
基于LDA与新兴主题特征分析的新兴主题探测研究 被引量:60
7
作者 范云满 马建霞 《情报学报》 CSSCI 北大核心 2014年第7期698-711,共14页
本文尝试基于LDA主题模型探测文档集中的新兴主题.本文采用主题的新颖度、发文量指标,并引入被引量,得到新兴主题的特征指标,在此基础上对主题在进入成熟阶段前各个时期的特征进行了分析.并提出了针对上述新兴主题探测指标,基于LDA主题... 本文尝试基于LDA主题模型探测文档集中的新兴主题.本文采用主题的新颖度、发文量指标,并引入被引量,得到新兴主题的特征指标,在此基础上对主题在进入成熟阶段前各个时期的特征进行了分析.并提出了针对上述新兴主题探测指标,基于LDA主题模型抽取文档的语义主题词,利用文档-主题矩阵建立主题和文档的映射,得到主题的新颖度指标和发文量指标、被引量指标,并形成新兴主题探测表格和探测曲线VDP,从而探测出新兴主题,并对新兴主题VDP与基线VDP距离的发展趋势进行预测,根据拟合的曲线对其进行分析,得到最值得关注的新兴主题. 展开更多
关键词 隐狄利克雷分布 主题模型 新兴主题 主题特征 新颖度指标 发文量指标 被引量指标 生命周期
下载PDF
高分辨率遥感影像目标分类与识别研究进展 被引量:55
8
作者 刘扬 付征叶 郑逢斌 《地球信息科学学报》 CSCD 北大核心 2015年第9期1080-1091,共12页
高分辨率遥感影像的目标分类与识别,是对地观测系统进行图像分析理解,以及自动目标识别系统提取目标信息的重要手段。本文综述了当前国内外在可见光、红外、合成孔径雷达和合成孔径声纳等遥感影像的目标分类与识别的关键技术和最新研究... 高分辨率遥感影像的目标分类与识别,是对地观测系统进行图像分析理解,以及自动目标识别系统提取目标信息的重要手段。本文综述了当前国内外在可见光、红外、合成孔径雷达和合成孔径声纳等遥感影像的目标分类与识别的关键技术和最新研究进展。首先,讨论了高分辨率遥感影像的目标分类与识别问题的主要研究层次和内容;其次,深入分析了高分辨率遥感影像目标分类与识别,在滤波降噪、特征提取、目标检测、场景分类、目标分类和目标识别的关键技术及其所存在的问题;最后,结合并行计算、神经计算和认知计算等技术,讨论了目标分类与识别的可行性方案。具体包括:(1)高性能并行计算在高分辨率遥感图像处理的主流技术,并给出了基于Hadoop+Open MP+CUDA的高分辨率遥感影像混合并行处理架构;(2)深度学习对于提升目标分类和识别精度的应用前景,以及基于深度神经网络的多层次遥感影像目标识别方法;(3)认知计算在解决遥感影像大数据不确定性分析的模型与算法,并讨论了层次主题模型的多尺度遥感影像场景描述方案。此外,根据媒体神经认知计算的相关研究,探讨了遥感影像大数据的目标分类和识别的发展趋势和研究方向。 展开更多
关键词 目标分类与识别 媒体神经认知计算 并行计算 深度学习 主题模型
原文传递
基于主题情感混合模型的无监督文本情感分析 被引量:54
9
作者 孙艳 周学广 付伟 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期102-108,共7页
针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题,通过在LDA模型中融入情感模型,提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签,对每个词采样主题标签,无须对样本进行标注,就可以得到各... 针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题,通过在LDA模型中融入情感模型,提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签,对每个词采样主题标签,无须对样本进行标注,就可以得到各个主题的主题情感词,从而对文档集进行情感分类。情感分类实验对比表明,UTSU模型的分类性能比有监督情感分类方法稍差,但在无监督的情感分类方法中效果最好,情感分类综合指标比ASUM模型提高了约2%,比JST模型提高了约16%。 展开更多
关键词 主题模型 LDA 情感分析 混合模型
下载PDF
融合语义主题的图像自动标注 被引量:50
10
作者 李志欣 施智平 +1 位作者 李志清 史忠植 《软件学报》 EI CSCD 北大核心 2011年第4期801-812,共12页
由于语义鸿沟的存在,图像自动标注已成为一个重要课题.在概率潜语义分析的基础上,提出了一种融合语义主题的方法以进行图像的标注和检索.首先,为了更准确地建模训练数据,将每幅图像的视觉特征表示为一个视觉"词袋";然后设计... 由于语义鸿沟的存在,图像自动标注已成为一个重要课题.在概率潜语义分析的基础上,提出了一种融合语义主题的方法以进行图像的标注和检索.首先,为了更准确地建模训练数据,将每幅图像的视觉特征表示为一个视觉"词袋";然后设计一个概率模型分别从视觉模态和文本模态中捕获潜在语义主题,并提出一种自适应的不对称学习方法融合两种语义主题.对于每个图像文档,它在各个模态上的主题分布通过加权进行融合,而权值由该文档的视觉词分布的熵值来确定.于是,融合之后的概率模型适当地关联了视觉模态和文本模态的信息,因此能够很好地预测未知图像的语义标注.在一个通用的Corel图像数据集上,将提出的方法与几种前沿的图像标注方法进行了比较.实验结果表明,该方法具有更好的标注和检索性能. 展开更多
关键词 图像自动标注 主题模型 概率潜语义分析 自适应不对称学习 图像检索
下载PDF
基于LDA-HMM的专利技术主题演化趋势分析——以船用柴油机技术为例 被引量:49
11
作者 陈伟 林超然 +1 位作者 李金秋 杨早立 《情报学报》 CSSCI CSCD 北大核心 2018年第7期732-741,共10页
如何在专利数据海洋中挖掘技术主题的研究现状、识别具有潜力的研发热点,对企业和国家来说都是至关重要的战略议题。针对目前技术主题演化趋势预测研究中存在的不足:技术创新过程中随机特征的忽视、人工分类的缺陷以及专业术语难以识别... 如何在专利数据海洋中挖掘技术主题的研究现状、识别具有潜力的研发热点,对企业和国家来说都是至关重要的战略议题。针对目前技术主题演化趋势预测研究中存在的不足:技术创新过程中随机特征的忽视、人工分类的缺陷以及专业术语难以识别等问题,本研究提出一种组合方法,首先使用维特比(Viterbi)算法识别专利文献中的专业术语,其次利用机器学习中的隐含狄利克雷分布(LDA)算法捕捉专利文献中潜在的技术主题聚类,分析各时期技术主题的分布特征和演变规律,然后结合包含双重随机过程的隐马尔可夫模型(HMM)对未来技术趋势进行定量预测,最后以船用柴油机技术为例,应用上述组合方法分析船用柴油机技术的主题分布、演化规律及未来趋势。对比实验显示本文方法具有有效性和实用价值。 展开更多
关键词 主题模型 隐含狄利克雷分布 隐马尔可夫过程 技术演化
下载PDF
自然语言处理中的文本表示研究 被引量:46
12
作者 赵京胜 宋梦雪 +1 位作者 高祥 朱巧明 《软件学报》 EI CSCD 北大核心 2022年第1期102-128,共27页
自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示... 自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示的技术分类,对主流技术和方法,包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文本表示,进行了分析、归纳和总结,对基于事件、基于语义和基于知识的文本表示也进行了介绍.对文本表示技术的发展趋势和方向进行了预测和进一步讨论.以神经网络为基础的深度学习以及表示学习在文本表示中将发挥重要作用,预训练加调优的策略将逐渐成为主流,文本表示需要具体问题具体分析,技术和应用融合是推动力. 展开更多
关键词 自然语言处理 文本表示 向量空间模型 主题模型 图模型 深度学习 表示学习
下载PDF
融合主题模型和协同过滤的多样化移动应用推荐 被引量:44
13
作者 黄璐 林川杰 +2 位作者 何军 刘红岩 杜小勇 《软件学报》 EI CSCD 北大核心 2017年第3期708-720,共13页
随着移动应用的急速增长,手机助手等移动应用获取平台也面临着信息过载的问题.面对大量的移动应用,用户很难找到最适合的;而另一方面,长尾应用淹没在资源池中不易被人所知.已有推荐方法多注重推荐准确率,忽视了多样性,推荐结果中多是下... 随着移动应用的急速增长,手机助手等移动应用获取平台也面临着信息过载的问题.面对大量的移动应用,用户很难找到最适合的;而另一方面,长尾应用淹没在资源池中不易被人所知.已有推荐方法多注重推荐准确率,忽视了多样性,推荐结果中多是下载量高的应用,使得推荐系统的数据积累越来越偏向于热门应用,导致长期的推荐效果越来越差.针对这一问题,首先改进了两种推荐方法,提出了将用户的主题模型和应用的主题模型与MF相结合的LDA_MF模型,以及将应用的标签信息和用户行为数据同时加以考虑的LDA_CF算法.为了结合不同算法的优点,在保证推荐准确率的条件下提升推荐结果的多样性,提出了融合LDA_MF,LDA_CF以及经典的基于物品的协同过滤模型的混合推荐算法.使用真实的大数据评测所提推荐算法,结果显示,所提推荐方法能够得到推荐多样性更好且准确率更高的结果. 展开更多
关键词 主题模型 矩阵分解 推荐系统 推荐多样性 协同过滤
下载PDF
基于文本挖掘的高铁信号系统车载设备故障诊断 被引量:44
14
作者 赵阳 徐田华 《铁道学报》 EI CAS CSCD 北大核心 2015年第8期53-59,共7页
本文以故障文本信息为依据,提出基于文本挖掘的高铁信号系统车载设备的故障诊断方法。针对故障追踪表记录的不规范性和随意性,采用主题模型对故障追踪表进行分析和特征提取;在此基础上,考虑到高铁信号系统车载设备故障诊断的不确定性,... 本文以故障文本信息为依据,提出基于文本挖掘的高铁信号系统车载设备的故障诊断方法。针对故障追踪表记录的不规范性和随意性,采用主题模型对故障追踪表进行分析和特征提取;在此基础上,考虑到高铁信号系统车载设备故障诊断的不确定性,采用贝叶斯网络作为故障分类的方法。在贝叶斯网络结构的确定中,根据车载设备的特点与领域专家知识,提出适用于车载设备的贝叶斯结构学习算法HDBN_SL。以武广线的现场数据为依据,进行实验分析,测试结果表明本文特征提取以及故障诊断方法具有较好的诊断准确性。 展开更多
关键词 故障诊断 高速铁路 车载设备 主体模型 贝叶斯网络
下载PDF
基于深度学习的主题模型研究 被引量:43
15
作者 黄佳佳 李鹏伟 +2 位作者 彭敏 谢倩倩 徐超 《计算机学报》 EI CSCD 北大核心 2020年第5期827-855,共29页
主题模型作为一个发展二十余年的研究问题,一直是篇章级别文本语义理解的重要工具.主题模型善于从一组文档中抽取出若干组关键词来表达该文档集的核心思想,因而也为文本分类、信息检索、自动摘要、文本生成、情感分析等其他文本分析任... 主题模型作为一个发展二十余年的研究问题,一直是篇章级别文本语义理解的重要工具.主题模型善于从一组文档中抽取出若干组关键词来表达该文档集的核心思想,因而也为文本分类、信息检索、自动摘要、文本生成、情感分析等其他文本分析任务提供重要支撑.虽然基于三层贝叶斯网络的传统概率主题模型在过去十余年已被充分研究,但随着深度学习技术在自然语言处理领域的广泛应用,结合深度学习思想与方法的主题模型焕发出新的生机.研究如何整合深度学习的先进技术,构建更加准确高效的文本生成模型成为基于深度学习主题建模的主要任务.本文首先概述并对比了传统主题模型中四个经典的概率主题模型与两个稀疏约束的主题模型.接着对近几年基于深度学习的主题模型研究进展进行综述,分析其与传统模型的联系、区别与优势,并对其中的主要研究方向和进展进行归纳、分析与比较.此外,本文还介绍了主题模型常用公开数据集及评测指标.最后,总结了主题模型现有技术的特点,并分析与展望了基于深度学习的主题模型的未来发展趋势. 展开更多
关键词 主题模型 深度学习 潜在主题 词向量 神经网络
下载PDF
LDA模型在专利文本分类中的应用 被引量:42
16
作者 廖列法 勒孚刚 朱亚兰 《现代情报》 CSSCI 北大核心 2017年第3期35-39,共5页
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语... 对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。 展开更多
关键词 LDA 主题模型 专利文本分类 主题相似度
下载PDF
一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证 被引量:41
17
作者 刘江华 《情报科学》 CSSCI 北大核心 2017年第2期16-21,26,共7页
【目的/意义】非常态分布状态下,LDA主题模型的检索效果较差;在数据量较小的情况下LDA主题模型计算出来的正确率较低。【方法/过程】本文提出一种基于Kmeans聚类算法的LDA主题模型检索方法,本检索方法以Kmeans算法为基础,对文本主题进... 【目的/意义】非常态分布状态下,LDA主题模型的检索效果较差;在数据量较小的情况下LDA主题模型计算出来的正确率较低。【方法/过程】本文提出一种基于Kmeans聚类算法的LDA主题模型检索方法,本检索方法以Kmeans算法为基础,对文本主题进行聚类和语义相关度分析,避免了传统LDA主题模型存在的诸多缺陷。【结果/结论】实验结果显示,不论是一般还是多义主题关键词的检索,本文的LDA主题模型在耗时和准确率上均比本文列出的其他三种主题模型具有明显的优势,进一步验证了本文提出方法的有效性。 展开更多
关键词 LDA(潜在狄利克雷分布) 主题模型 聚类分析 文本检索
原文传递
基于主题隐马尔科夫模型的人体异常行为识别 被引量:38
18
作者 朱旭东 刘志镜 《计算机科学》 CSCD 北大核心 2012年第3期251-255,275,共6页
针对基于监控视频的人体异常行为识别问题,提出了基于主题隐马尔科夫模型的人体异常行为识别方法,即通过无任何人工标注的视频训练集自动学习人体行为模型,并能够应用学到的人体行为模型实时检测异常行为和识别正常行为。这一方法主要围... 针对基于监控视频的人体异常行为识别问题,提出了基于主题隐马尔科夫模型的人体异常行为识别方法,即通过无任何人工标注的视频训练集自动学习人体行为模型,并能够应用学到的人体行为模型实时检测异常行为和识别正常行为。这一方法主要围绕"低层视频表示-中层语义行为建模-高层语义分类"3个方面进行:1)基于时-空间兴趣点构建了一种紧凑的和有效的视频表示方法。2)提出一种新颖的语义主题模型(Topic Model,TM)——主题隐马尔科夫模型(Topic Hidden Markov Model,THMM),它能够自然地分组视频中检测到的人体行为。主题隐马尔科夫模型基于已有的马尔科夫模型和主题模型构造,不但聚类运动词汇成简单动作,而且聚类简单动作成全局行为,同时建模了行为时间上的相关性。THMM是一个4层贝叶斯主题模型,它将视频序列建模为行为的马尔科夫链,同时行为是视频序列中某些视频剪辑(Clip)的概率分布;将视频剪辑建模为动作的随机组合,同时动作是视频剪辑中运动词汇的概率分布。克服了传统隐马尔科夫模型和主题模型在人体复杂行为建模过程中精度、鲁棒性和计算效率上的不足。3)提出运行时累积的异常性测度及其在线异常行为检测方法和基于在线似然比检验(Likelihood Ratio Test,LRT)的实时正常行为分类方法,从而克服了实时行为识别过程中由于缺乏充分的视觉证据而引发的行为类型歧义,能完较好地完成监控场景中实时异常行为检测和在线正常行为识别的任务。取自实际监控场景的实验数据集上的实验结果证明了本方法的有效性。 展开更多
关键词 计算机视觉 语义主题模型 异常检测 运动词包 行为聚类
下载PDF
一种基于LDA主题模型的政策文本聚类方法研究 被引量:39
19
作者 张涛 马海群 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第9期59-65,共7页
【目的】利用LDA主题模型有效提升政策文本聚类精准度。【方法】通过对政策文本模拟数据的预处理、导入政策词表、LDA模型生成基础数据、利用加权算法进行文本计算等步骤对政策文本聚类。【结果】实验数据表明:k=4时,加权后的政策文本... 【目的】利用LDA主题模型有效提升政策文本聚类精准度。【方法】通过对政策文本模拟数据的预处理、导入政策词表、LDA模型生成基础数据、利用加权算法进行文本计算等步骤对政策文本聚类。【结果】实验数据表明:k=4时,加权后的政策文本聚类结果 G值最大,与初始人工分类数量吻合,Purity值和F值较高,因此验证该方法是合理有效的。【局限】实验中每步操作结果的精度都会对政策文本聚类的准确性产生影响。【结论】通过运用该方法的整体性设计,可对未来新政策的制定及对已有政策的反向评价检验和双向互动生成机制的形成提供借鉴。 展开更多
关键词 政策文本 LDA 主题模型 文本聚类
原文传递
网络公共舆论与政府回应的互动逻辑——基于新冠肺炎疫情期间“领导留言板”的数据分析 被引量:38
20
作者 郑石明 兰雨潇 黎枫 《公共管理学报》 CSSCI 北大核心 2021年第3期24-37,169,共15页
新冠肺炎疫情对全球造成了巨大冲击,也引发激烈的网络公共舆论。本研究以政治系统理论为视角,利用LDA主题模型对中国网络问政平台"领导留言板"进行数据分析,讨论突发公共卫生事件网络公共舆论与政府回应的互动逻辑。研究发现:... 新冠肺炎疫情对全球造成了巨大冲击,也引发激烈的网络公共舆论。本研究以政治系统理论为视角,利用LDA主题模型对中国网络问政平台"领导留言板"进行数据分析,讨论突发公共卫生事件网络公共舆论与政府回应的互动逻辑。研究发现:(1)政府有效回应了网络公共舆论议题框架中的主要议题,降低了多数网络公共舆论议题热度;(2)网络公共舆论与政府回应之间的互动表现为"杜鹃-鸳鸯模式",即从"民意先发,政府回应"向"政府主导,政民高度互动"转变;(3)网络公共舆论特定议题的热度峰值越高,政府回应速度越快;(4)通过回应特定议题、释放政治信号、前置回应三种方式,政府回应可对议题热度和议题框架等网络公共舆论特征产生反馈作用。 展开更多
关键词 突发公共卫生事件 网络公共舆论 政府回应 主题模型 政治系统理论
原文传递
上一页 1 2 65 下一页 到第
使用帮助 返回顶部