期刊文献+
共找到96篇文章
< 1 2 5 >
每页显示 20 50 100
面向舆情事件的子话题标签生成模型ET-TAG 被引量:19
1
作者 周楠 杜攀 +2 位作者 靳小龙 刘悦 程学旗 《计算机学报》 EI CSCD 北大核心 2018年第7期1490-1503,共14页
关于舆情事件的新闻数据是纷繁复杂的.即便是关于同一舆情事件的新闻数据,往往包含有不同的子话题(事件的不同侧面).因此,如何生成能够准确描述事件子话题含义的标签对深入分析舆情事件(包括掌握事件热点、监测发展走向等)具有重要意义... 关于舆情事件的新闻数据是纷繁复杂的.即便是关于同一舆情事件的新闻数据,往往包含有不同的子话题(事件的不同侧面).因此,如何生成能够准确描述事件子话题含义的标签对深入分析舆情事件(包括掌握事件热点、监测发展走向等)具有重要意义.事件子话题标签的生成通常包括两个关键步骤:首先发现子话题,然后依据每个子话题的关键词或文档内容生成描述该子话题的有效标签.传统方法在发现话题时多采用聚类或分类的方法,它们将同一个话题的文档整合到一个簇中.然而,由于隶属同一事件的文档具有很强的相似性,现有方法难以度量他们之间的距离,因此无法应用于发现事件子话题这一任务.此外,在为子话题生成标签时,传统的方法通常通过抽取来实现.此类方法所生成标签的准确性无法保证.为此,该文提出了一种基于PLSA with Background Language并结合关键词聚类发现事件内部子话题,进而基于维基百科等知识库生成事件子话题标签的模型ET-TAG.在多类舆情事件数据集上的实验结果表明,ET-TAG算法相比K-means和LDA等已有子话题发现方法具有更好的性能;从子话题标签生成角度而言,ET-TAG生成的标签相对于传统方法也具有更好的准确性和概括性.该文最后将ET-TAG算法生成的子话题标签用于事件的对比和追踪,结果表明通过子话题标签可以发现事件共性,并反映事件子话题热度的变化趋势. 展开更多
关键词 子话题发现 plsa with BACKGROUND LANGUAGE 关键词聚类 子话题标签生成
下载PDF
一种基于概率潜在语义模型的高分辨率遥感影像分类方法 被引量:18
2
作者 陶超 谭毅华 +1 位作者 彭碧发 田金文 《测绘学报》 EI CSCD 北大核心 2011年第2期156-162,共7页
针对高分辨率遥感影像中"同谱异物","同物异谱"现象对影像分类过程造成的干扰,将文本分析中的概率潜在语义模型应用于高分辨率遥感影像分类,提出一种无监督的遥感影像分类新方法。该方法首先利用均值漂移分割方法... 针对高分辨率遥感影像中"同谱异物","同物异谱"现象对影像分类过程造成的干扰,将文本分析中的概率潜在语义模型应用于高分辨率遥感影像分类,提出一种无监督的遥感影像分类新方法。该方法首先利用均值漂移分割方法对影像进行分割构建图像区域集合,然后提取集合各区域中每个像元的Gabor纹理特征,并对这些特征进行聚类形成视觉词汇,最后利用PLSA方法对各区域进行分析,找出其最可能属于的主题或者类别,从而完成影像分类。文中GeoEye-1和IKONOS影像试验结果表明,该方法能有效提高高分辨率遥感影像分类精度。 展开更多
关键词 高分辨率遥感影像分类 概率潜在语义模型 视觉词汇 GABOR纹理特征
下载PDF
结合词向量和聚类算法的新闻评论话题演进分析 被引量:14
3
作者 林江豪 周咏梅 +1 位作者 阳爱民 王伟 《计算机工程与科学》 CSCD 北大核心 2016年第11期2368-2374,共7页
话题演进分析主要是挖掘话题内容随着时间流的演进情况。话题的内容可用关键词来表示。利用word2vec对75万篇新闻和微博文本进行训练,得到词向量模型。将文本流处理后输入模型,获得时间序列下所有词汇的词向量,利用K-means对词向量进行... 话题演进分析主要是挖掘话题内容随着时间流的演进情况。话题的内容可用关键词来表示。利用word2vec对75万篇新闻和微博文本进行训练,得到词向量模型。将文本流处理后输入模型,获得时间序列下所有词汇的词向量,利用K-means对词向量进行聚类,从而实现话题关键词的抽取。实验对比了基于PLSA和LDA主题模型下的话题抽取效果,发现本文的话题分析效果优于主题模型的方法。同时,采集足够大量、内容足够丰富的语料,可训练得到泛化能力比较强的模型,有利于实时话题演进分析研究工作。 展开更多
关键词 话题演进 word2vec plsa LDA
下载PDF
PLSA在图情领域专家专长识别中的应用 被引量:9
4
作者 张晓娟 陆伟 程齐凯 《现代图书情报技术》 CSSCI 北大核心 2012年第2期76-81,共6页
基于图情领域权威期刊论文数据集,利用概率潜在语义分析(PLSA)算法对表征专家专长的文档进行处理,以此来定位图情领域专家的研究领域。实验结果表明,该方法具有可行性并取得较好的实验结果。
关键词 专家 专家专长 plsa 文档主题
原文传递
基于Bag of Features算法的车辆图像识别研究 被引量:9
5
作者 何友松 吴炜 +2 位作者 陈默 杨晓敏 罗代升 《电视技术》 北大核心 2009年第12期104-107,共4页
将Bag of Features算法引入汽车图像识别领域中,并提出了将DoG(Difference of Gaussian)特征提取算法和PLSA分类算法结合在一起实现车辆和背景图像分类。首先用DoG特征提取算法提取图像特征,用这些特征聚类产生码书并对图像进行柱状图描... 将Bag of Features算法引入汽车图像识别领域中,并提出了将DoG(Difference of Gaussian)特征提取算法和PLSA分类算法结合在一起实现车辆和背景图像分类。首先用DoG特征提取算法提取图像特征,用这些特征聚类产生码书并对图像进行柱状图描述,最后设计PLSA分类器对车辆图像和背景图像进行分类。实验对比了该算法与Tamura纹理特征算法和Gabor纹理特征算法在车辆图像识别中的效果。结果表明本文算法分类正确率优于另外两种方法。 展开更多
关键词 BAG of Features算法 码书 SIFT K-MEANS 概率潜在语义分析
下载PDF
社交网络用户兴趣挖掘研究 被引量:10
6
作者 何炎祥 刘续乐 +2 位作者 陈强 梁伟 孙松涛 《小型微型计算机系统》 CSCD 北大核心 2014年第11期2385-2389,共5页
面向消费者的公司或者企业都希望了解他们用户的需求,而大量的用户产生的数据在很大程度上就体现了用户的兴趣和需求.提出一种用于社交网站上,针对用户生成内容(User Generate Content UGC)和用户关注信息的用户兴趣发掘方法.首先通过... 面向消费者的公司或者企业都希望了解他们用户的需求,而大量的用户产生的数据在很大程度上就体现了用户的兴趣和需求.提出一种用于社交网站上,针对用户生成内容(User Generate Content UGC)和用户关注信息的用户兴趣发掘方法.首先通过启发式初始化的PLSA模型训练得到贴近兴趣类别的话题模型,然后从训练结果中抽取可靠的话题并以此构建分类器,对用户的分享数据进行分类,最后根据用户的分享数据分类结果来识别用户的兴趣类别.在初始化PLSA模型时,用关键词抽取算法抽取每个分类的关键词,并给这些关键词赋予较高的PLSA初始权重,以此来引导PLSA模型的训练.实验的结果表明:本文方法可以有效的构建用户兴趣类别,并对用户兴趣的挖掘比较理想. 展开更多
关键词 用户兴趣挖掘 社交网络 关键词抽取 概率潜在语义分析 话题模型
下载PDF
基于视觉注意力和PLSA模型的钢轨表面缺陷检测 被引量:7
7
作者 王军 《铁道科学与工程学报》 CAS CSCD 北大核心 2015年第3期509-514,共6页
针对目前钢轨表面缺陷检测的速度,精度较低,分类较难的现状,提出一种基于视觉注意力和PLSA模型的钢轨表面缺陷检测方法;结合亮度和纹理特征的视觉注意力模型检测钢轨表面缺陷,提取原图像的缺陷区域,并采用PLSA模型对提取的缺陷进行分类... 针对目前钢轨表面缺陷检测的速度,精度较低,分类较难的现状,提出一种基于视觉注意力和PLSA模型的钢轨表面缺陷检测方法;结合亮度和纹理特征的视觉注意力模型检测钢轨表面缺陷,提取原图像的缺陷区域,并采用PLSA模型对提取的缺陷进行分类。实验结果表明:所提出的方法提高了检测及分类的速度与精度,能满足钢轨表面缺陷检测的要求。 展开更多
关键词 钢轨表面缺陷 视觉注意力 plsa 缺陷分类
下载PDF
基于PLSA方法的用户兴趣聚类 被引量:5
8
作者 陈冬玲 王大玲 +1 位作者 于戈 于芳 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第1期53-56,共4页
为了在个性化搜索过程中能够准确地挖掘到用户的潜在兴趣并进行相应的聚类分析,提出采用潜语义空间的Zipf分布的特性,并结合PLSA(概率潜在语义分析)来获取全文的语义.即先通过Zipf分布原理找到文档的潜在语义空间,在此空间中对用户的兴... 为了在个性化搜索过程中能够准确地挖掘到用户的潜在兴趣并进行相应的聚类分析,提出采用潜语义空间的Zipf分布的特性,并结合PLSA(概率潜在语义分析)来获取全文的语义.即先通过Zipf分布原理找到文档的潜在语义空间,在此空间中对用户的兴趣进行聚类,并建立用户兴趣描述文件(user profile),即建立用户兴趣层次树.实验表明,所提出聚类算法的聚类效果明显优于传统的VSM(向量空间模型)的聚类效果,同时,在著名的CTI数据集上的个性化推荐实验结果也充分说明基于潜在语义空间构建的用户兴趣描述与用户真实兴趣相符合. 展开更多
关键词 用户兴趣描述文件 plsa 潜语义空间 ZIPF分布 用户兴趣层次树
下载PDF
面向社交媒体评论的子话题挖掘研究 被引量:5
9
作者 夏丽华 韩冬梅 《情报杂志》 CSSCI 北大核心 2020年第4期110-116,共7页
[目的/意义]在线用户在社交网络分享产品的体验,即便是同种产品的评论,往往包含不同的子话题(产品的不同方面)。面向在线评论的子话题挖掘能够分析参与者对产品的不同方面的关注及需求,为管理者提供更多的决策支持。[方法/过程]现有话... [目的/意义]在线用户在社交网络分享产品的体验,即便是同种产品的评论,往往包含不同的子话题(产品的不同方面)。面向在线评论的子话题挖掘能够分析参与者对产品的不同方面的关注及需求,为管理者提供更多的决策支持。[方法/过程]现有话题挖掘多采用分类、聚类、概率主题模型的方法,由于描述同一产品的文档往往十分相似,现有方法难以保证子话题的差异性。为此,将概率主题模型融合词共现关系,提出GPLSA方法,包括PLSA算法初步识别子话题、去除公共背景词、合并相似的子话题及更新子话题关键词等步骤。[结果/结论]知乎网站MOOCs数据集上的实验结果表明,GPLSA方法的主题凝聚性高于现有算法,能够有效提高子话题发现的质量。结合MOOCs子话题反馈的学习者需求,给出完善MOOCs管理的有效建议。 展开更多
关键词 社交媒体 在线评论 话题识别 plsa 词共现
下载PDF
基于标签的大众标注系统协同推荐算法 被引量:4
10
作者 蒋翠清 张玉 +1 位作者 陆文星 丁勇 《情报学报》 CSSCI 北大核心 2011年第11期1152-1157,共6页
本文针对大众标注系统中现有基于标签的推荐算法的不足,分析了大众标注系统中用户标注的潜在语义。提出了基于标签的大众标注系统协同推荐算法。新的算法利用扩展的PLSA模型将用户标注映射到具有明确意义的语义主题上,较好地消除了标... 本文针对大众标注系统中现有基于标签的推荐算法的不足,分析了大众标注系统中用户标注的潜在语义。提出了基于标签的大众标注系统协同推荐算法。新的算法利用扩展的PLSA模型将用户标注映射到具有明确意义的语义主题上,较好地消除了标签的语义模糊问题,提高了推荐精度。最后通过实验证明了本文提出的推荐算法效果要优于传统的推荐算法。 展开更多
关键词 大众标注 潜在语义 plsa 推荐
下载PDF
连通区的页面分割与分类方法 被引量:3
11
作者 王姝华 曹阳 +1 位作者 李佐 蔡士杰 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2002年第1期17-20,25,共5页
页面分割与分类是文档处理的关键步骤 ,但目前多数方法对页面的块和倾斜进行了限制 .文中提出一种新的基于连通区的页面分割与分类方法 .首先采用快速算法抽取页面内的连通区 ,然后利用改进的 RL SA算法分割页面 ,并根据连通区的分布情... 页面分割与分类是文档处理的关键步骤 ,但目前多数方法对页面的块和倾斜进行了限制 .文中提出一种新的基于连通区的页面分割与分类方法 .首先采用快速算法抽取页面内的连通区 ,然后利用改进的 RL SA算法分割页面 ,并根据连通区的分布情况以及块的特征对块进行分类 .该方法将页面分割与分类紧密结合 ,充分考虑到块的局部特征 ,保证块分类的正确性 。 展开更多
关键词 文档处理 页面分割 页面分类 plsa 图像处理 计算机
下载PDF
利用空间金字塔分块与PLSA的场景分类方法 被引量:2
12
作者 曾璞 吴玲达 文军 《小型微型计算机系统》 CSCD 北大核心 2009年第6期1133-1136,共4页
提出一种基于空间金字塔分块与PLSA方法相结合的场景分类方法.该方法首先通过空间金字塔分块的方式来构建图像区域集合,然后利用概率潜在语义分析(PLSA)从图像的区域集合中发现潜在语义模型,最后根据潜在语义模型找出所有图像区域中潜... 提出一种基于空间金字塔分块与PLSA方法相结合的场景分类方法.该方法首先通过空间金字塔分块的方式来构建图像区域集合,然后利用概率潜在语义分析(PLSA)从图像的区域集合中发现潜在语义模型,最后根据潜在语义模型找出所有图像区域中潜在语义出现概率来构建区域潜在语义特征,并使用该特征构建SVM模型进行场景分类.在13类场景图像上的试验表明,和其他方法相比,该方法中不需要进行大量的手工标注,而且具有更高的分类准确率. 展开更多
关键词 场景分类 区域潜在语义 空间金字塔分块 plsa
下载PDF
基于盖然论潜在语义分析的Web使用挖掘 被引量:3
13
作者 石新景 汤小春 闫磊 《微电子学与计算机》 CSCD 北大核心 2008年第6期225-228,共4页
Web使用挖掘的首要任务是发现Web用户访问行为的模式.传统聚类算法对解空间的搜索带有盲目性和缺乏语义特征.提出了一种基于盖然论潜在语义分析(PLSA)的发现和分析Web访问模式的方法,即通过定量地衡量出Web用户和Web对象与潜在因素之间... Web使用挖掘的首要任务是发现Web用户访问行为的模式.传统聚类算法对解空间的搜索带有盲目性和缺乏语义特征.提出了一种基于盖然论潜在语义分析(PLSA)的发现和分析Web访问模式的方法,即通过定量地衡量出Web用户和Web对象与潜在因素之间的概率关系,再利用盖然论的方法来完成各种分析任务.实验结果表明该方法具有高效性. 展开更多
关键词 WEB使用挖掘 访问模式 plsa 潜在因素
下载PDF
考虑用户兴趣变化的概率隐语意协同推荐算法 被引量:5
14
作者 吴成超 王卫平 《计算机系统应用》 2014年第5期162-166,共5页
推荐系统是人们从海量信息中获取对自己有用信息的一种有效途径,在学术界和工业界都受到广泛关注.协同过滤则是推荐系统领域最流行的算法,目前很多协同过滤算法都是静态模型,没有考虑到用户兴趣会随着时间而变化.本文提出一种融合算法,... 推荐系统是人们从海量信息中获取对自己有用信息的一种有效途径,在学术界和工业界都受到广泛关注.协同过滤则是推荐系统领域最流行的算法,目前很多协同过滤算法都是静态模型,没有考虑到用户兴趣会随着时间而变化.本文提出一种融合算法,利用高斯概率隐语意(PLSA)模型提取出用户的长期兴趣分布,然后结合用户评分时间窗捕获用户短期兴趣变化,从而更准确的为用户做出推荐.在Netflix和MovieLens数据集的上测试表明,改进算法的预测评分准确率明显高于经典的基于用户相似度算法和PLSA算法. 展开更多
关键词 推荐系统 协同过滤 概率隐语意算法 兴趣变化 时间窗
下载PDF
一个基于概率潜语义分析的多模态多媒体检索模型 被引量:5
15
作者 张宇 袁野 王国仁 《小型微型计算机系统》 CSCD 北大核心 2015年第8期1665-1670,共6页
互联网上快速增长的多媒体信息往往包含几种不同的模态,并且在同一个多媒体文档中的这些不同形式的模态往往包含相似的含义.因此,最近多模态检索已经变成了多媒体检索领域的热点问题.提出一个基于概率潜语义分析的多模态检索模型用来完... 互联网上快速增长的多媒体信息往往包含几种不同的模态,并且在同一个多媒体文档中的这些不同形式的模态往往包含相似的含义.因此,最近多模态检索已经变成了多媒体检索领域的热点问题.提出一个基于概率潜语义分析的多模态检索模型用来完成多模态的检索.两个假设被提出:(1)同一个多媒体文档的不同模态是这个文档的多种表达方式,因此它们都表示相似的含义;(2)文本单词和图像特性是独立地被生成出来的.利用概率潜语义分析分别模拟训练集中文本和图像的生成过程并且通过期望最大化算法学习获得它们的潜在主题分布.利用多元线性回归方法分析文本表达和图像表达,并利用最小二乘法得到回归矩阵的估计.这个矩阵用于将文本和图像模态互相转换.实验表明了该方法的有效性. 展开更多
关键词 多模态 多媒体 检索 概率潜语义分析
下载PDF
基于改进PLSA分类器的目标分类算法 被引量:2
16
作者 赵宏伟 陈霄 +1 位作者 龙曼丽 袁世培 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第S1期231-235,共5页
通过SIFT描述目标特征,利用Bag-of-words模型将目标特征构建为codebook,通过PLSA分类器对目标进行分类,根据PLSA分类学习过程中存在迭代复杂的问题,将贝叶斯分类器中的直接统计方法替换PLSA中最大似然估计,为PLSA提供足够的先验知识,减... 通过SIFT描述目标特征,利用Bag-of-words模型将目标特征构建为codebook,通过PLSA分类器对目标进行分类,根据PLSA分类学习过程中存在迭代复杂的问题,将贝叶斯分类器中的直接统计方法替换PLSA中最大似然估计,为PLSA提供足够的先验知识,减少学习过程中迭代次数,实验结果表明,相比于传统PLSA分类算法,本文方法检测结果较为准确,算法切实可行。 展开更多
关键词 计算机应用 SIFT描述 BAG-OF-WORDS plsa 贝叶斯分类器 目标分类
下载PDF
基于潜在主题的视频异常行为分析 被引量:2
17
作者 陆海先 郭立 +1 位作者 桂树 谢锦生 《通信技术》 2012年第7期67-71,共5页
提出了一种基于时空3D-sift特征和潜在主题分布的高效异常行为分析方法。该方法首先利用时间轴上的Gabor滤波器以及3D-sift特征描述子提取视频关键字。将视频信号看作文本,则关键字就是里面的单词,pLSA算法假设在单词与文本之间存在潜... 提出了一种基于时空3D-sift特征和潜在主题分布的高效异常行为分析方法。该方法首先利用时间轴上的Gabor滤波器以及3D-sift特征描述子提取视频关键字。将视频信号看作文本,则关键字就是里面的单词,pLSA算法假设在单词与文本之间存在潜在的主题,根据视频中主题的分布进行异常行为分析,而不是直接采用单词分布。针对使用Gabor滤波器提取感兴趣点产生的一些冗余点进行排除,采用并行算法降低运算时间。 展开更多
关键词 异常行为 时空特征 plsa 潜在主题 并行计算
原文传递
基于主题模型的胶囊内镜图像序列筛查 被引量:1
18
作者 农桂仙 潘宁 +2 位作者 陆恒 胡怀飞 刘海华 《中国生物医学工程学报》 CAS CSCD 北大核心 2022年第4期412-419,共8页
无线胶囊内窥镜(WCE)是用于记录患者消化道影像的新技术,该技术的出现给消化道疾病诊断带来了极大帮助。但在检测过程中,每位患者所产生的约5~8万幅图像中含有大量气泡和杂质等干扰图像,极大地影响了疾病诊断的效率。目前大多数方法只... 无线胶囊内窥镜(WCE)是用于记录患者消化道影像的新技术,该技术的出现给消化道疾病诊断带来了极大帮助。但在检测过程中,每位患者所产生的约5~8万幅图像中含有大量气泡和杂质等干扰图像,极大地影响了疾病诊断的效率。目前大多数方法只针对气泡筛查,且这些方法通常不稳定、普适性较差。因此,提出一种基于主题模型的WCE图像语义分析方法筛查序列中干扰性图像。首先构建非对称自编码器提取图像特征,并利用K-Means算法对训练图像块特征聚类构建视觉单词;其次将测试图像块特征映射到视觉单词中,获得测试图像的词频矩阵,实现基于视觉单词的图像语义表达;最后利用主题模型对词频矩阵进行分析,获取图像语义分类。数据集来源于南京东部战区总医院的消化道内科30例不同患者的WCE图像序列,且由临床经验丰富的医生进行注解,其中包括3 340幅气泡图像、3 330幅杂质图像和3 330幅正常图像,以1∶1的比例随机划分为训练集和测试集,进行10次交叉验证。实验结果表明,该方法能有效筛查出干扰性图像,基于深度学习的卷积自编码器优于传统的特征提取方式,获得96.87%的精度,有效地减少医生阅片负担,提高疾病诊断效率。 展开更多
关键词 语义分析 plsa 卷积自编码器 WCE图像筛查
下载PDF
基于并行计算的概率潜在语义分析算法研究 被引量:2
19
作者 赵伟 《安徽职业技术学院学报》 2014年第3期1-3,8,共4页
概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)中通过将文档—单词关系转变成文档—主题—单词关系对文档进行排序、过滤、分类等操作,计算量巨大。文章设计了基于MPI(Message Passing Interface)的PLSA高效并行方案... 概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)中通过将文档—单词关系转变成文档—主题—单词关系对文档进行排序、过滤、分类等操作,计算量巨大。文章设计了基于MPI(Message Passing Interface)的PLSA高效并行方案,对模型系统和训练数据处理以及并行算法加以优化,提出了一种大数据条件下PLSA并行算法,解决了以往数据规模太大难以计算的问题,算法较优化前训练速度有较大提升,具有扩展性和可行性。 展开更多
关键词 plsa MPI 关系 并行计算 大数据
下载PDF
基于概率潜在语义分析的文本聚类研究 被引量:3
20
作者 吴金学 《青岛理工大学学报》 CAS 2008年第2期95-99,共5页
根据内容对海量文本信息进行聚类分析,可以改进信息检索和管理的效率.在文本聚类中,首先利用奇异值分解对词-文档矩阵进行化简,达到降秩和去噪的目的;然后在聚类分析中,采用概率潜在语义分析强化文档的区分特征,以k-medoids聚类方法为基... 根据内容对海量文本信息进行聚类分析,可以改进信息检索和管理的效率.在文本聚类中,首先利用奇异值分解对词-文档矩阵进行化简,达到降秩和去噪的目的;然后在聚类分析中,采用概率潜在语义分析强化文档的区分特征,以k-medoids聚类方法为基础,提出的方法改进了聚类过程的鲁棒性,实验结果表明该算法的有效性. 展开更多
关键词 文本 聚类 奇异值分解 概率潜在语义分析
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部