期刊文献+
共找到202篇文章
< 1 2 11 >
每页显示 20 50 100
基于Labeled-LDA模型的文本分类新算法 被引量:103
1
作者 李文波 孙乐 张大鲲 《计算机学报》 EI CSCD 北大核心 2008年第4期620-627,共8页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro-F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro-F1提高约3%. 展开更多
关键词 文本分类 图模型 隐含狄利克雷分配 变分推断
下载PDF
基于LDA主题模型的文本相似度计算 被引量:95
2
作者 王振振 何明 杜永萍 《计算机科学》 CSCD 北大核心 2013年第12期229-232,共4页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。 展开更多
关键词 主题模型 lda 文本相似度 GIBBS抽样
下载PDF
基于微博数据的北京市热点区域意象感知 被引量:58
3
作者 谢永俊 彭霞 +1 位作者 黄舟 刘瑜 《地理科学进展》 CSSCI CSCD 北大核心 2017年第9期1099-1110,共12页
"城市意象"研究对城市文化感知、城市管理与规划、旅游资源开发等具有重要意义。近年来,随着智能移动终端和社交媒体的普及,产生了大量城市内包含有文本和地理位置等信息的社交媒体数据,涉及城市的各个区域,为开展城市意象的... "城市意象"研究对城市文化感知、城市管理与规划、旅游资源开发等具有重要意义。近年来,随着智能移动终端和社交媒体的普及,产生了大量城市内包含有文本和地理位置等信息的社交媒体数据,涉及城市的各个区域,为开展城市意象的综合感知研究提供了新的途径。本文以2016年北京市带位置签到的新浪微博数据为例,在空间聚类发现热点区域的基础上,采用词频—逆文件频率(TF-IDF)与文档主题生成模型LDA两类典型的文本分析的方法,挖掘城市不同热点区域的主题,以感知北京市不同热点区域的社会文化功能和人群行为,并在此基础上通过对热点区域高频主题词进行共词聚类分析,深度挖掘北京市的总体意象。研究表明,运用文本挖掘及地理大数据分析的城市意象研究方法,能及时感知人群在城市不同场所的活动、态度、偏好,从而揭示城市的社会文化及功能特征,是对刻画城市物质形态的城市意象五要素模型的重要补充。此外,以北京市热点区域为例的实证研究结果对现实中的城市特色传承与空间品质塑造等有一定的启发意义。 展开更多
关键词 地理空间数据 社交媒体 微博数据 文本分析 热点区域 城市意象
原文传递
基于LDA模型的文本分类研究 被引量:56
4
作者 姚全珠 宋志理 彭程 《计算机工程与应用》 CSCD 北大核心 2011年第13期150-153,共4页
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数... 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 展开更多
关键词 文本分类 潜在狄利克雷分配(lda)模型 GIBBS抽样 贝叶斯统计理论
下载PDF
基于主题情感混合模型的无监督文本情感分析 被引量:54
5
作者 孙艳 周学广 付伟 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期102-108,共7页
针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题,通过在LDA模型中融入情感模型,提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签,对每个词采样主题标签,无须对样本进行标注,就可以得到各... 针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题,通过在LDA模型中融入情感模型,提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签,对每个词采样主题标签,无须对样本进行标注,就可以得到各个主题的主题情感词,从而对文档集进行情感分类。情感分类实验对比表明,UTSU模型的分类性能比有监督情感分类方法稍差,但在无监督的情感分类方法中效果最好,情感分类综合指标比ASUM模型提高了约2%,比JST模型提高了约16%。 展开更多
关键词 主题模型 lda 情感分析 混合模型
下载PDF
基于LDA特征扩展的短文本分类 被引量:49
6
作者 吕超镇 姬东鸿 吴飞飞 《计算机工程与应用》 CSCD 北大核心 2015年第4期123-127,共5页
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩... 针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。 展开更多
关键词 隐含狄利克雷分布 文本分类 支持向量机 特征扩展
下载PDF
一种改进的LDA主题模型 被引量:47
7
作者 张小平 周雪忠 +3 位作者 黄厚宽 冯奇 陈世波 焦宏官 《北京交通大学学报》 CAS CSCD 北大核心 2010年第2期111-114,共4页
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关... 由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高. 展开更多
关键词 lda dirichlet分布 加权主题模型
下载PDF
基于局部语义聚类的语义重叠社区发现算法 被引量:36
8
作者 辛宇 杨静 +1 位作者 汤楚蘅 葛斯乔 《计算机研究与发展》 EI CSCD 北大核心 2015年第7期1510-1521,共12页
语义社会网络是一种包含信息节点及社会关系构成的新型复杂网络,因此以节点邻接关系为挖掘对象的传统社会网络社区发现算法无法有效处理语义社会网络重叠社区发现问题.针对这一问题,提出基于局部语义聚类的语义社会网络重叠社区发现算法... 语义社会网络是一种包含信息节点及社会关系构成的新型复杂网络,因此以节点邻接关系为挖掘对象的传统社会网络社区发现算法无法有效处理语义社会网络重叠社区发现问题.针对这一问题,提出基于局部语义聚类的语义社会网络重叠社区发现算法,该算法:1)以LDA(latent Dirichlet allocation)模型为语义信息模型,利用Gibbs取样法建立节点语义信息到语义空间的量化映射;2)以节点间语义坐标的相对熵作为节点语义相似度的度量,建立节点相似度矩阵;3)根据社会网络的局部小世界特性,提出语义社会网络的局部社区结构S-fitness模型,并根据S-fitness模型建立了局部语义聚类算法(local semantic clusterm,LSC);4)提出可度量语义社区发现结果的语义模块度模型,并通过实验分析,验证了算法及语义模块度模型的有效性及可行性. 展开更多
关键词 语义社会网络 重叠社区发现 lda模型 相对熵 Gibbs取样 局部语义聚类
下载PDF
概率主题模型综述 被引量:35
9
作者 韩亚楠 刘建伟 罗雄麟 《计算机学报》 EI CAS CSCD 北大核心 2021年第6期1095-1139,共45页
主题模型是当下文本挖掘中最主要的技术之一,广泛应用于数据挖掘、文本分类以及社区发现等.由于其出色的降维能力和灵活的易扩展性,成为自然语言处理领域的一个热门研究方向.Blei等人提出了以Latent Dirichlet Allocation(LDA)为代表的... 主题模型是当下文本挖掘中最主要的技术之一,广泛应用于数据挖掘、文本分类以及社区发现等.由于其出色的降维能力和灵活的易扩展性,成为自然语言处理领域的一个热门研究方向.Blei等人提出了以Latent Dirichlet Allocation(LDA)为代表的概率主题建模方法,在该模型中主题可以看作是单词的概率分布,主题模型通过单词项在文档级的共现信息提取出与文档语义相关的主题,实现将高维的单词空间映射到低维的主题空间,进而完成对目标文本数据的降维处理,开创了文本挖掘研究的新方向.其中LDA作为一种概率生成模型很容易被扩展为其它各种形式的模型,鉴于概率主题模型的应用价值、理论意义和未来的发展潜力,本文首先系统性地对LDA模型进行介绍,进而对基于LDA模型的各类扩展模型进行详细分类,并对其中各类的典型代表进行详细介绍,指出了各个概率主题模型被提出的原因以及其模型的具体形式、所具有的优缺点、适宜解决的问题等,进而又指出近年来主题模型典型应用场景;此外,本文还对目前概率主题模型常用的几个公认的数据集、评测方法以及典型实验结果进行详细介绍,并在最后指明了概率主题模型在进一步研究中需要解决的问题以及未来可能的发展方向. 展开更多
关键词 主题模型 文本挖掘 lda 高维数据 自然语言处理
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:30
10
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
基于LDA-wSVM模型的文本分类研究 被引量:29
11
作者 李锋刚 梁钰 +1 位作者 GAO Xiao-zhi ZENGER Kai 《计算机应用研究》 CSCD 北大核心 2015年第1期21-25,共5页
SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题。为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-w SVM高效分类算法模... SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题。为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-w SVM高效分类算法模型。利用LDA主题模型进行建模和特征选择,确定主题数和隐主题—文本矩阵;在经典权重计算方法上作改进,考虑各特征项与类别的关联度,设计了一种新的权重计算方法;在特征词空间上使用这种基于权重计算的w SVM分类器进行分类。实验基于R软件平台对搜狗实验室的新闻文本集进行分类,得到了宏平均值为0.943的高精确度分类结果。实验结果表明,提出的LDA-w SVM模型在文本自动分类中具有很好的优越性能。 展开更多
关键词 文本分类 潜在狄利克雷分布 支持向量机 权重计算 吉普斯抽样
下载PDF
一种基于政策文本计算的政策内容分析方法实证研究——以互联网租赁自行车为例 被引量:26
12
作者 张涛 蔡庆平 马海群 《信息资源管理学报》 CSSCI 2019年第1期66-76,共11页
政策文本计算是信息科学、政策科学与计算科学交叉融合的产物,通过对政策文件及政策评论内容进行计算分析,使政策制定研究过程更加科学有效。文章首先利用关键词抽取法对政策文件进行框架提取;其次利用主题分析法对政策评论数据进行聚... 政策文本计算是信息科学、政策科学与计算科学交叉融合的产物,通过对政策文件及政策评论内容进行计算分析,使政策制定研究过程更加科学有效。文章首先利用关键词抽取法对政策文件进行框架提取;其次利用主题分析法对政策评论数据进行聚类分析;再次利用共现分析法对政策文件及政策评论共现强度数据计算;最后依据计算所得数据对政策内容进行综合分析,进而形成一种新的政策内容分析方法并以互联网租赁自行车为例证实了该方法的有效性,此方法的提出也为未来政策分析研究提供了新思路。 展开更多
关键词 政策文本计算 政策内容分析 互联网租赁自行车 文档主题生成模型(lda) 内容分析方法
下载PDF
基于朴素贝叶斯与潜在狄利克雷分布相结合的情感分析 被引量:22
13
作者 苏莹 张勇 +1 位作者 胡珀 涂新辉 《计算机应用》 CSCD 北大核心 2016年第6期1613-1618,共6页
针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论... 针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。 展开更多
关键词 情感分析 主题模型 潜在狄利克雷分布 朴素贝叶斯 意见挖掘
下载PDF
基于LDA的改进K-means算法在文本聚类中的应用 被引量:21
14
作者 王春龙 张敬旭 《计算机应用》 CSCD 北大核心 2014年第1期249-254,共6页
针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个... 针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个主题,并在这m个主题所在的维度上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类,理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。 展开更多
关键词 主题模型 K-MEANS 聚类中心 文本聚类 隐含狄利克雷分布
下载PDF
基于LDA话题关联的话题演化 被引量:20
15
作者 楚克明 李芳 《上海交通大学学报》 EI CAS CSCD 北大核心 2010年第11期1496-1500,共5页
话题演化可以帮助人们快速获取信息和了解趋势.提出了一种挖掘话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化.对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意2个话题的分布距... 话题演化可以帮助人们快速获取信息和了解趋势.提出了一种挖掘话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化.对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意2个话题的分布距离和话题的特征向量相似度实现话题的关联.实验结果证明,该方法不但可以描述同一个话题随时间的强度变化,还可以描述新话题的产生,旧话题的消失以及话题内容随时间的演化. 展开更多
关键词 话题探测 话题关联 话题演化 潜在狄里特里分配
下载PDF
基于LDA的煤矿安全隐患主题发现研究 被引量:17
16
作者 谭章禄 王泽 陈晓 《中国安全科学学报》 CAS CSCD 北大核心 2016年第6期123-128,共6页
为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,... 为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,最终优选出14个安全隐患主题;采用桑基图揭示隐患主题与责任主体、隐患致因之间的关系。结果表明:LDA主题模型能较好揭示煤矿安全隐患数据中的潜在规律,为煤矿隐患排查、隐患治理以及安全管理决策提供重要信息。 展开更多
关键词 煤矿隐患 潜在狄利克雷分配模型(lda) Gibbs抽样算法 词云 桑基图
下载PDF
基于LDA的双通道在线主题演化模型 被引量:15
17
作者 曹建平 王晖 +2 位作者 夏友清 乔凤才 张鑫 《自动化学报》 EI CSCD 北大核心 2014年第12期2877-2886,共10页
网络舆情分析中需要处理大量时效性较强的文本数据流.针对在线时效性较强的文本数据流,提出基于LDA(Latent Dirichlet allocation)的双通道在线主题演化模型(Bi-path evolution online-LDA,BPE-OLDA),在下一时间片生成文本时考虑文本的... 网络舆情分析中需要处理大量时效性较强的文本数据流.针对在线时效性较强的文本数据流,提出基于LDA(Latent Dirichlet allocation)的双通道在线主题演化模型(Bi-path evolution online-LDA,BPE-OLDA),在下一时间片生成文本时考虑文本的内容遗传和强度遗传,很好地模拟了人在生成时效性较强的文本时的特征.估算模型参数时对Gibbs采样算法进行了简化,实验证明,使用简化后的在线Gibbs重采样算法,BPE-OLDA模型在提取时效性较强的文本数据流的主题方面具有明显的效果. 展开更多
关键词 时效性 强度遗传 GIBBS采样 lda模型
下载PDF
基于轨迹和兴趣点数据的城市功能区动态识别与时变规律可视分析 被引量:13
18
作者 张慧杰 王蓉 +2 位作者 陈斌 侯亚芳 曲德展 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2018年第9期1728-1740,共13页
目前,多数城市功能区识别方法仅依据路网和土地利用类型进行功能区的划分与识别,无法反映功能区范围及功能性随人类活动的动态变化.为此,提出基于轨迹数据挖掘与兴趣点语义分析的城市功能区识别与时空特征分析方法.通过考虑车辆行驶状... 目前,多数城市功能区识别方法仅依据路网和土地利用类型进行功能区的划分与识别,无法反映功能区范围及功能性随人类活动的动态变化.为此,提出基于轨迹数据挖掘与兴趣点语义分析的城市功能区识别与时空特征分析方法.通过考虑车辆行驶状况与区域功能的相关性,对特征轨迹点进行自适应密度聚类,并基于聚类中心利用Voronoi图合理划分功能区范围.为了有效地评价区域的复合功能性,利用潜在狄利克雷分布(latent Dirichlet allocation,LDA)模型对区域内兴趣点的类别信息挖掘主题词并计算相应的概率,在此基础上提出功能性强弱量化计算方法.基于轨迹数据的时变特性,构建交互式可视分析系统UFAVIS(urban functional areas visualization),进一步发掘人类活动对功能区时空模式的影响.利用结合时空特征分析的功能区识别方法对北京市真实数据进行了实验验证和具体案例分析,结果表明,UFAVIS能够准确识别区域的复合功能性,并发现功能区随人类活动的时空变化规律,为城市规划和政策制定提供依据. 展开更多
关键词 轨迹数据 功能区识别 时序分析 VORONOI图 潜在dirichlet分布 可视分析
下载PDF
一种基于概率主题模型的恶意代码特征提取方法 被引量:13
19
作者 刘亚姝 王志海 +1 位作者 侯跃然 严寒冰 《计算机研究与发展》 EI CSCD 北大核心 2019年第11期2339-2348,共10页
在当前复杂网络环境下,恶意代码通过各种方式快速传播,入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络和互联网用户造成了严重的安全威胁.传统检测方法难以检测未知恶意代码,而恶意代码变体的多样性和庞大数量也对未知恶意... 在当前复杂网络环境下,恶意代码通过各种方式快速传播,入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络和互联网用户造成了严重的安全威胁.传统检测方法难以检测未知恶意代码,而恶意代码变体的多样性和庞大数量也对未知恶意代码检测构成了巨大挑战.提出了一种无监督的恶意代码识别方法,通过分析反汇编PE文件给出汇编指令标准化规则,结合潜在狄立克雷分布(latent Dirichlet allocation,LDA)获得汇编指令中潜在的“文档主题”、“主题词”的分布.再以“主题分布”构造恶意样本特征,产生一个全新的恶意代码检测框架.结合“困惑度”和变化的步长给出了最优“主题”数目的快速评价和自动确定方法,解决了LDA模型中主题数目需要预先指定的问题.同时解析了“文档主题”、“主题词”聚集结果的语义可解释性,说明了该方法获得的样本特征具有潜在的语义.实验结果表明:与其他方法相比该方法具有相当的或更好的恶意代码鉴别能力,同时能够准确地识别恶意代码的新变体. 展开更多
关键词 恶意代码检测 狄立克雷分布 概率主题模型 困惑度 Gibbs
下载PDF
基于SIFT,K-Means和LDA的图像检索算法 被引量:12
20
作者 汪宇雷 毕树生 +1 位作者 孙明磊 蔡月日 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2014年第9期1317-1322,共6页
图像检索一直是信息检索领域的难题.提出了一种基于尺度不变特征变换(SIFT,Scale Invariant Feature Transform),K-Means和潜在狄利克雷分布(LDA,Latent Dirichlet Allocation)的图像检索算法.算法主要分为两个阶段.预备工作得到分类完... 图像检索一直是信息检索领域的难题.提出了一种基于尺度不变特征变换(SIFT,Scale Invariant Feature Transform),K-Means和潜在狄利克雷分布(LDA,Latent Dirichlet Allocation)的图像检索算法.算法主要分为两个阶段.预备工作得到分类完成的图库、概率分配参数表和基本词库;实现检索是在预备工作的基础上归类测试图片,然后在该类下搜索最相似图片.对比传统的基于文本或内容的检索方法,该算法在检索之前将图片库中所有图片按其本身特征进行自动分类,取代人工标注图像信息的过程,同时由于整个算法完全基于图像特征,故此方法不会引入人工因素的干扰.实验结果表明,该算法能够较为准确地将要检索的图片归为图片库对应的类别中,有效地提高图像检索效率. 展开更多
关键词 尺度不变特征变换(SIFT) K-MEANS 潜在狄利克雷分布(lda) 基于内容的图像检索 图像匹配
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部