期刊文献+
共找到352篇文章
< 1 2 18 >
每页显示 20 50 100
基于近邻传播算法的半监督聚类 被引量:165
1
作者 肖宇 于剑 《软件学报》 EI CSCD 北大核心 2008年第11期2803-2813,共11页
提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算... 提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法. 展开更多
关键词 半监督聚类 近邻传播 相似度矩阵 成对点约束 先验知识
下载PDF
密度敏感的半监督谱聚类 被引量:95
2
作者 王玲 薄列峰 焦李成 《软件学报》 EI CSCD 北大核心 2007年第10期2412-2422,共11页
聚类通常被认为是一种无监督的数据分析方法,然而在实际问题中可以很容易地获得有限的样本先验信息,如样本的成对限制信息.大量研究表明,在聚类搜索过程中充分利用先验信息会显著提高聚类算法的性能.首先分析了在聚类过程中仅利用成对... 聚类通常被认为是一种无监督的数据分析方法,然而在实际问题中可以很容易地获得有限的样本先验信息,如样本的成对限制信息.大量研究表明,在聚类搜索过程中充分利用先验信息会显著提高聚类算法的性能.首先分析了在聚类过程中仅利用成对限制信息存在的不足,尝试探索数据集本身固有的先验信息——空间一致性先验信息,并提出利用这类先验信息的具体方法.接着,将两类先验信息同时引入经典的谱聚类算法中,提出一种密度敏感的半监督谱聚类算法(density-sensitivesemi-supervisedspectralclusteringalgorithm,简称DS-SSC).两类先验信息在指导聚类搜索的过程中能够起到相辅相成的作用,这使得DS-SSC算法相对于仅利用成对限制信息的聚类算法在聚类性能上有了显著的提高.在UCI基准数据集、USPS手写体数字集以及TREC的文本数据集上的实验结果验证了这一点. 展开更多
关键词 谱聚类 半监督聚类 成对限制 先验信息
下载PDF
基于成对约束的判别型半监督聚类分析 被引量:51
3
作者 尹学松 胡思良 陈松灿 《软件学报》 EI CSCD 北大核心 2008年第11期2791-2802,共12页
现有一些典型的半监督聚类方法一方面难以有效地解决成对约束的违反问题,另一方面未能同时处理高维数据.通过提出一种基于成对约束的判别型半监督聚类分析方法来同时解决上述问题.该方法有效地利用了监督信息集成数据降维和聚类,即在投... 现有一些典型的半监督聚类方法一方面难以有效地解决成对约束的违反问题,另一方面未能同时处理高维数据.通过提出一种基于成对约束的判别型半监督聚类分析方法来同时解决上述问题.该方法有效地利用了监督信息集成数据降维和聚类,即在投影空间中使用基于成对约束的K均值算法对数据聚类,再利用聚类结果选择投影空间.同时,该算法降低了基于约束的半监督聚类算法的计算复杂度,并解决了聚类过程中成对约束的违反问题.在一组真实数据集上的实验结果表明,与现有相关半监督聚类算法相比,新方法不仅能够处理高维数据,还有效地提高了聚类性能. 展开更多
关键词 半监督聚类 成对约束 闭包中心 投影矩阵 聚类分析
下载PDF
半监督聚类的若干新进展 被引量:50
4
作者 李昆仑 曹铮 +2 位作者 曹丽苹 张超 刘明 《模式识别与人工智能》 EI CSCD 北大核心 2009年第5期735-742,共8页
半监督聚类方法利用少量标记数据提高聚类算法的性能,已逐渐发展成为模式识别及相关领域的研究热点.文中首先综述了半监督聚类算法的一些新进展,包括基于约束的方法、基于距离的方法和基于距离与约束的融合方法.然后提出一种基于约束的... 半监督聚类方法利用少量标记数据提高聚类算法的性能,已逐渐发展成为模式识别及相关领域的研究热点.文中首先综述了半监督聚类算法的一些新进展,包括基于约束的方法、基于距离的方法和基于距离与约束的融合方法.然后提出一种基于约束的半监督模糊C-means聚类算法.实验表明,该算法与传统的模糊C-means及半监督K-means方法相比,具有更好的聚类精度. 展开更多
关键词 半监督聚类 模糊C一均值(FCM) 标记数据 无标记数据
原文传递
A survey on ensemble learning 被引量:48
5
作者 Xibin DONG Zhiwen YU +2 位作者 Wenming CAO Yifan SHI Qianli MA 《Frontiers of Computer Science》 SCIE EI CSCD 2020年第2期241-258,共18页
Despite significant successes achieved in knowledge discovery,traditional machine learning methods may fail to obtain satisfactory performances when dealing with complex data,such as imbalanced,high-dimensional,noisy ... Despite significant successes achieved in knowledge discovery,traditional machine learning methods may fail to obtain satisfactory performances when dealing with complex data,such as imbalanced,high-dimensional,noisy data,etc.The reason behind is that it is difficult for these methods to capture multiple characteristics and underlying structure of data.In this context,it becomes an important topic in the data mining field that how to effectively construct an efficient knowledge discovery and mining model.Ensemble learning,as one research hot spot,aims to integrate data fusion,data modeling,and data mining into a unified framework.Specifically,ensemble learning firstly extracts a set of features with a variety of transformations.Based on these learned features,multiple learning algorithms are utilized to produce weak predictive results.Finally,ensemble learning fuses the informative knowledge from the above results obtained to achieve knowledge discovery and better predictive performance via voting schemes in an adaptive way.In this paper,we review the research progress of the mainstream approaches of ensemble learning and classify them based on different characteristics.In addition,we present challenges and possible research directions for each mainstream approach of ensemble learning,and we also give an extra introduction for the combination of ensemble learning with other machine learning hot spots such as deep learning,reinforcement learning,etc. 展开更多
关键词 ENSEMBLE LEARNING supervised ENSEMBLE CLASSIFICATION semi-supervised ENSEMBLE CLASSIFICATION clustering ENSEMBLE semi-supervised clustering ENSEMBLE
原文传递
基于半监督学习的无线网络攻击行为检测优化方法 被引量:43
6
作者 王婷 王娜 +1 位作者 崔运鹏 李欢 《计算机研究与发展》 EI CSCD 北大核心 2020年第4期791-802,共12页
针对如何优化深度学习技术在海量高维复杂的无线网络流量数据中有效发现异常攻击行为的问题,提出一种基于半监督学习的无线网络攻击行为检测优化方法(WiFi network attacks detection optimization method,WiFi-ADOM).首先基于无监督学... 针对如何优化深度学习技术在海量高维复杂的无线网络流量数据中有效发现异常攻击行为的问题,提出一种基于半监督学习的无线网络攻击行为检测优化方法(WiFi network attacks detection optimization method,WiFi-ADOM).首先基于无监督学习模型栈式稀疏自编码器提出2种网络流量特征表示向量:新特征值向量和原始特征权重值向量.然后利用原始特征权重值向量初始化监督学习模型深度神经网络的权重值得到网络攻击类型的预判结果,并通过无监督学习聚类方法Bi-kmeans对网络流量的新特征值向量进行聚类以生成未知攻击类型判别纠正项.最后结合预判结果和未知攻击类型判别纠正项,得到网络攻击类型的最终判定结果.通过和已有研究方法对比,在公开无线网络攻击行为数据集AWID上验证了WiFi-ADOM方法对网络攻击行为检测的优化性能,同时探索了与网络攻击检测相关的重要特征属性的问题.实验结果表明:WiFi-ADOM方法在保证准确率等检测性能的同时能够有效检测未知攻击类型,具备优化网络攻击行为检测的能力. 展开更多
关键词 网络攻击行为检测 网络入侵检测 半监督学习 深度学习 Bi-kmeans聚类
下载PDF
基于Tri-Training和数据剪辑的半监督聚类算法 被引量:30
7
作者 邓超 郭茂祖 《软件学报》 EI CSCD 北大核心 2008年第3期663-673,共11页
提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法Tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在Tri-training训练过程中结合基于最近邻规则的Depuration数据剪辑技术... 提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法Tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在Tri-training训练过程中结合基于最近邻规则的Depuration数据剪辑技术对seeds集扩大过程中产生的误标记噪声数据进行修正、净化,以提高seeds集质量.实验结果表明,所提出的基于Tri-training和数据剪辑的DE-Tri-training半监督聚类新算法能够有效改善seeds集对聚类中心的初始化效果,提高聚类性能. 展开更多
关键词 半监督聚类 半监督分类 K-均值 seeds集 TRI-TRAINING Depuration数据剪辑
下载PDF
半监督的仿射传播聚类 被引量:29
8
作者 王开军 李健 +1 位作者 张军英 涂重阳 《计算机工程》 CAS CSCD 北大核心 2007年第23期197-198,201,共3页
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明... 仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。 展开更多
关键词 仿射传播聚类 半监督聚类 大数据集的聚类算法
下载PDF
一种结合主动学习的半监督文档聚类算法 被引量:30
9
作者 赵卫中 马慧芳 +1 位作者 李志清 史忠植 《软件学报》 EI CSCD 北大核心 2012年第6期1486-1499,共14页
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种... 半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法. 展开更多
关键词 半监督聚类 文档聚类 主动学习 成对约束
下载PDF
一种半监督K均值多关系数据聚类算法 被引量:22
10
作者 高滢 刘大有 +1 位作者 齐红 刘赫 《软件学报》 EI CSCD 北大核心 2008年第11期2814-2821,共8页
提出了一种半监督K均值多关系数据聚类算法.该算法在K均值聚类算法的基础上扩展了其初始类簇的选择方法和对象相似性度量方法,以用于多关系数据的半监督学习.为了获取高性能,该算法在聚类过程中充分利用了标记数据、对象属性及各种关系... 提出了一种半监督K均值多关系数据聚类算法.该算法在K均值聚类算法的基础上扩展了其初始类簇的选择方法和对象相似性度量方法,以用于多关系数据的半监督学习.为了获取高性能,该算法在聚类过程中充分利用了标记数据、对象属性及各种关系信息.多关系数据库Movie上的实验结果验证了该算法的有效性. 展开更多
关键词 数据挖掘 半监督学习 聚类算法 多关系数据 K均值聚类
下载PDF
半监督学习研究的述评 被引量:21
11
作者 韩嵩 韩秋弘 《计算机工程与应用》 CSCD 北大核心 2020年第6期19-27,共9页
监督学习需要利用大量的标记样本训练模型,但实际应用中,标记样本的采集费时费力。无监督学习不使用先验信息,但模型准确性难以保证。半监督学习突破了传统方法只考虑一种样本类型的局限,能够挖掘大量无标签数据隐藏的信息,辅助少量的... 监督学习需要利用大量的标记样本训练模型,但实际应用中,标记样本的采集费时费力。无监督学习不使用先验信息,但模型准确性难以保证。半监督学习突破了传统方法只考虑一种样本类型的局限,能够挖掘大量无标签数据隐藏的信息,辅助少量的标记样本进行训练,成为机器学习的研究热点。通过对半监督学习研究的总趋势以及具体研究内容进行详细的梳理与总结,分别从半监督聚类、分类、回归与降维以及非平衡数据分类和减少噪声数据共六个方面进行综述,发现半监督方法众多,但存在以下不足:(1)部分新提出的方法虽然有效,但仅通过特定数据集进行了实证,缺少一定的理论证明;(2)复杂数据下构建的半监督模型参数较多,结果不稳定且缺乏参数选取的指导经验;(3)监督信息多采用样本标签或成对约束形式,对混合约束的半监督学习需要进一步研究;(4)对半监督回归的研究匮乏,对如何利用连续变量的监督信息研究甚少。 展开更多
关键词 半监督学习 半监督聚类 半监督分类 半监督降维 半监督回归
下载PDF
一种半聚类的异常入侵检测算法 被引量:17
12
作者 俞研 黄皓 《计算机应用》 CSCD 北大核心 2006年第7期1640-1642,共3页
针对基于监督学习的入侵检测算法所面临的训练样本不足的问题,提出了一种结合改进k-近邻法的基于半监督聚类的异常入侵检测算法,利用少量的标记数据改善算法的学习能力,并实现了对新攻击类型的检测。实验结果表明,在标记数据极少的情况... 针对基于监督学习的入侵检测算法所面临的训练样本不足的问题,提出了一种结合改进k-近邻法的基于半监督聚类的异常入侵检测算法,利用少量的标记数据改善算法的学习能力,并实现了对新攻击类型的检测。实验结果表明,在标记数据极少的情况下,算法的检测结果明显好于非监督学习的算法,接近于监督学习的检测算法。 展开更多
关键词 入侵检测 半监督聚类 新攻击检测
下载PDF
基于情感特征聚类的半监督情感分类 被引量:23
13
作者 李素科 蒋严冰 《计算机研究与发展》 EI CSCD 北大核心 2013年第12期2570-2577,共8页
情感分类是观点挖掘的一个重要的方面.提出了一种基于情感特征聚类的半监督式情感分类方法,该方法只需要对少量训练数据实例进行情感类别标注.首先从消费者评论中提取普通分类特征和情感特征,普通分类特征可以用来训练一个情感分类器.... 情感分类是观点挖掘的一个重要的方面.提出了一种基于情感特征聚类的半监督式情感分类方法,该方法只需要对少量训练数据实例进行情感类别标注.首先从消费者评论中提取普通分类特征和情感特征,普通分类特征可以用来训练一个情感分类器.然后使用spectral聚类算法把这些情感特征映射成扩展特征.普通分类特征和扩展特征一起通过训练得到另一个情感分类器.2个分类器再从未标签数据集中选择实例放入到训练集合中,并通过训练得到最终的情感分类器.实验结果表明,在同样的数据集上该方法的情感分类准确度比基于self-learning SVM的方法和基于co-training SVM的方法的情感分类准确度要高. 展开更多
关键词 半监督式学习 情感特征聚类 情感分类 观点挖掘 WEB挖掘 数据挖掘
下载PDF
一种基于半监督GHSOM的入侵检测方法 被引量:23
14
作者 阳时来 杨雅辉 +1 位作者 沈晴霓 黄海珍 《计算机研究与发展》 EI CSCD 北大核心 2013年第11期2375-2382,共8页
基于神经网络的入侵检测方法是入侵检测技术的一个重要发展方向.在已有无监督生长型分层自组织映射(growing hierarchical self-organizing maps,GHSOM)神经网络算法的基础上,提出了一种半监督GHSOM算法.该算法利用少量有标签的数据指... 基于神经网络的入侵检测方法是入侵检测技术的一个重要发展方向.在已有无监督生长型分层自组织映射(growing hierarchical self-organizing maps,GHSOM)神经网络算法的基础上,提出了一种半监督GHSOM算法.该算法利用少量有标签的数据指导大规模无标签数据的聚类过程.一方面借鉴cop-kmeans半监督机制,解决了原始算法中返回空划分的问题,并将其应用到GHSOM算法中.另一方面提出了神经元信息熵的概念作为子网生长的判断条件,提高了GHSOM网络子网划分的精度.此外还利用有标签的数据自动确定聚类结果的入侵类型.对KDD Cup 1999数据集和LAN环境下模拟产生的数据集进行的入侵检测实验表明:相比于无监督的GHSOM算法,半监督的GHSOM算法对各种类型的攻击具有较高的检测率. 展开更多
关键词 入侵检测 半监督 生长型分层自组织映射 聚类 信息熵
下载PDF
一种半监督的局部扩展式重叠社区发现方法 被引量:20
15
作者 陈俊宇 周刚 +1 位作者 南煜 曾琦 《计算机研究与发展》 EI CSCD 北大核心 2016年第6期1376-1388,共13页
重叠社区发现是近年来复杂网络领域的研究热点之一.提出一种半监督的局部扩展式重叠社区发现方法SLEM(semi-supervised local expansion method).该方法借鉴了带约束的半监督聚类的思想,不仅利用网络的拓扑结构信息,还充分地利用网络节... 重叠社区发现是近年来复杂网络领域的研究热点之一.提出一种半监督的局部扩展式重叠社区发现方法SLEM(semi-supervised local expansion method).该方法借鉴了带约束的半监督聚类的思想,不仅利用网络的拓扑结构信息,还充分地利用网络节点的属性信息.首先将网络节点的属性信息转化为成对约束,并根据成对约束修正网络的拓扑结构,使网络中的社区结构更加明显;然后基于网络节点的度中心性选取种子节点,得到分散的、局部节点度大的种子作为初始社区;再采用贪心策略将初始社区向邻居节点扩展,得到局部连接紧密的社区;最后检测并合并冗余社区,得到高覆盖率的社区发现结果.在模拟网络数据和真实网络数据上与当前有代表性的基于局部扩展的重叠社区发现算法进行了对比实验,结果表明SLEM方法在稀疏程度不同的网络上均能发现较高质量的重叠社区结构. 展开更多
关键词 复杂网络 重叠社区发现 半监督聚类 局部扩展 SLEM方法
下载PDF
基于深度置信网络的近距空战态势评估 被引量:21
16
作者 张彬超 寇雅楠 +1 位作者 邬蒙 左家亮 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2017年第7期1450-1459,共10页
针对传统态势评估方法权值确定困难、大规模数据处理和特征提取能力不足的问题,结合当前空战数据特征,将深度置信网络(DBN)应用于近距空战态势评估。通过密度峰值算法对空战特征数据进行聚类分析,并结合态势函数和专家判读进行修正,建... 针对传统态势评估方法权值确定困难、大规模数据处理和特征提取能力不足的问题,结合当前空战数据特征,将深度置信网络(DBN)应用于近距空战态势评估。通过密度峰值算法对空战特征数据进行聚类分析,并结合态势函数和专家判读进行修正,建立标准空战态势样本库;以重构误差和测试错误率为基础,建立网络拓扑结构和最优参数确定方法,提高模型的训练效率,并通过样本数据,对模型进行训练和验证。实验表明,模型态势分类正确率达到92.7%,模型运行时间满足应用需求,实例评估结果与客观态势一致性强。 展开更多
关键词 深度置信网络(DBN) 态势评估 半监督学习 网络拓扑结构 密度峰值聚类
下载PDF
基于约束动态更新的半监督层次聚类算法 被引量:20
17
作者 周晨曦 梁循 齐金山 《自动化学报》 EI CSCD 北大核心 2015年第7期1253-1263,共11页
提出了一种基于约束动态更新的半监督层次聚类算法.与现存的半监督层次聚类算法类似,该算法也使用了必连和不连约束.但不同的是,该算法并不是在对满足必连约束的数据样本点进行预先划分的基础上依据不连约束进行聚合操作,而是首先将约... 提出了一种基于约束动态更新的半监督层次聚类算法.与现存的半监督层次聚类算法类似,该算法也使用了必连和不连约束.但不同的是,该算法并不是在对满足必连约束的数据样本点进行预先划分的基础上依据不连约束进行聚合操作,而是首先将约束扩展为一个闭包,然后在这此基础上直接依据不连约束进行聚合操作,并在聚合的过程中依据聚类结果动态地更新必连和不连约束,以保证最终的聚类结果同时满足必连和不连约束.该算法的优势在于省略了对必连约束的数据样本点进行预先划分的步骤,这一改进能够保证数据样本点获得更为合理的聚合顺序,从而得到更为准确的聚类结果.本文具体给出了该算法基于Ward层次聚类算法的实现,提出了C-Ward算法.实验表明,与其他同类算法相比,无论是在人工模拟数据集还是在现实数据集上,本文提出的算法都表现出了更高的准确性和更强的稳定性. 展开更多
关键词 半监督聚类 层次聚类 约束 动态更新 Ward算法
下载PDF
半监督聚类综述 被引量:18
18
作者 秦悦 丁世飞 《计算机科学》 CSCD 北大核心 2019年第9期15-21,共7页
半监督聚类是结合半监督学习与聚类分析而提出的新的学习方法,其在机器学习中得到了广泛的重视和应用。传统无监督聚类算法在划分数据时并不需要任何数据属性,但在实际应用中,存在少量带有独立类标签或成对约束的监督信息的数据样本,学... 半监督聚类是结合半监督学习与聚类分析而提出的新的学习方法,其在机器学习中得到了广泛的重视和应用。传统无监督聚类算法在划分数据时并不需要任何数据属性,但在实际应用中,存在少量带有独立类标签或成对约束的监督信息的数据样本,学者们致力于将这些为数不多的监督信息运用于聚类,以得到更优的聚类结果,从而提出了半监督聚类。文中主要介绍了半监督聚类的理论基础和算法思想,并对半监督聚类的最新研究进展进行了综述。首先,对半监督学习的研究现状和分类进行了概述,并将生成式半监督学习、半监督SVM、基于图的半监督学习和协同训练这4种分类方法进行了对比;其次,针对半监督学习的聚类进行了详细的描述,并对4种典型半监督聚类算法(Cop-Kmeans算法、LCop-Kmeans算法、Seeded-Kmeans算法和SC-Kmeans算法)的算法思想进行了分析和总结,同时对这4种算法的优缺点进行了评价;然后,按照基于约束的半监督聚类和基于距离的半监督聚类两种情况,分别对半监督聚类的研究现状进行了阐述;最后,探讨了半监督聚类在生物信息学、图像分割以及计算机其他领域内的应用以及未来的研究方向。文中旨在使初学者能够快速了解半监督聚类的进展,理解典型的算法思想,并在之后的实际应用中能起到一定的指导作用。 展开更多
关键词 半监督学习 聚类 成对约束 标签 半监督聚类 机器学习
下载PDF
基于共享背景主题的Labeled LDA模型 被引量:17
19
作者 江雨燕 李平 王清 《电子学报》 EI CAS CSCD 北大核心 2013年第9期1794-1799,共6页
隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labe... 隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA,SBTL-LDA).在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background)主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性.同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果.实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果. 展开更多
关键词 隐藏狄利克雷分配 文本分析 多标记学习 半监督聚类
下载PDF
基于图划分的谱聚类方法的研究 被引量:16
20
作者 王会青 陈俊杰 《计算机工程与设计》 CSCD 北大核心 2011年第1期289-292,共4页
谱聚类算法已得到机器学习领域的广泛关注,其算法思想来源于谱图理论,通过矩阵的特征分解获得数据的低维嵌入,并用于后续聚类中。介绍了谱聚类方法的基本原理和算法思想,指出现有的谱聚类算法中存在初始化敏感、如何自动确定聚类分组数... 谱聚类算法已得到机器学习领域的广泛关注,其算法思想来源于谱图理论,通过矩阵的特征分解获得数据的低维嵌入,并用于后续聚类中。介绍了谱聚类方法的基本原理和算法思想,指出现有的谱聚类算法中存在初始化敏感、如何自动确定聚类分组数以及如何降低问题复杂度等问题,并针对存在的问题提出了相应的解决方法。 展开更多
关键词 谱聚类 图划分 谱图理论 半监督聚类 机器学习
下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部