期刊文献+
共找到605篇文章
< 1 2 31 >
每页显示 20 50 100
稀疏子空间聚类综述 被引量:79
1
作者 王卫卫 李小平 +1 位作者 冯象初 王斯琪 《自动化学报》 EI CSCD 北大核心 2015年第8期1373-1384,共12页
稀疏子空间聚类(Sparse subspace clustering,SSC)是一种基于谱聚类的数据聚类框架.高维数据通常分布于若干个低维子空间的并上,因此高维数据在适当字典下的表示具有稀疏性.稀疏子空间聚类利用高维数据的稀疏表示系数构造相似度矩阵,然... 稀疏子空间聚类(Sparse subspace clustering,SSC)是一种基于谱聚类的数据聚类框架.高维数据通常分布于若干个低维子空间的并上,因此高维数据在适当字典下的表示具有稀疏性.稀疏子空间聚类利用高维数据的稀疏表示系数构造相似度矩阵,然后利用谱聚类方法得到数据的子空间聚类结果.其核心是设计能够揭示高维数据真实子空间结构的表示模型,使得到的表示系数及由此构造的相似度矩阵有助于精确的子空间聚类.稀疏子空间聚类在机器学习、计算机视觉、图像处理和模式识别等领域已经得到了广泛的研究和应用,但仍有很大的发展空间.本文对已有稀疏子空间聚类方法的模型、算法和应用等方面进行详细阐述,并分析存在的不足,指出进一步研究的方向. 展开更多
关键词 高维数据 子空间聚类 稀疏表示 低秩表示
下载PDF
高维数据聚类方法综述 被引量:42
2
作者 贺玲 蔡益朝 杨征 《计算机应用研究》 CSCD 北大核心 2010年第1期23-26,31,共5页
总结了高维数据聚类算法的研究现状,分析比较了算法性能的主要差异,并指出其今后的发展趋势,即在子空间聚类过程中融入其他传统聚类方法的思想,以提高聚类性能。
关键词 高维数据 聚类 子空间
下载PDF
概率主题模型综述 被引量:40
3
作者 韩亚楠 刘建伟 罗雄麟 《计算机学报》 EI CAS CSCD 北大核心 2021年第6期1095-1139,共45页
主题模型是当下文本挖掘中最主要的技术之一,广泛应用于数据挖掘、文本分类以及社区发现等.由于其出色的降维能力和灵活的易扩展性,成为自然语言处理领域的一个热门研究方向.Blei等人提出了以Latent Dirichlet Allocation(LDA)为代表的... 主题模型是当下文本挖掘中最主要的技术之一,广泛应用于数据挖掘、文本分类以及社区发现等.由于其出色的降维能力和灵活的易扩展性,成为自然语言处理领域的一个热门研究方向.Blei等人提出了以Latent Dirichlet Allocation(LDA)为代表的概率主题建模方法,在该模型中主题可以看作是单词的概率分布,主题模型通过单词项在文档级的共现信息提取出与文档语义相关的主题,实现将高维的单词空间映射到低维的主题空间,进而完成对目标文本数据的降维处理,开创了文本挖掘研究的新方向.其中LDA作为一种概率生成模型很容易被扩展为其它各种形式的模型,鉴于概率主题模型的应用价值、理论意义和未来的发展潜力,本文首先系统性地对LDA模型进行介绍,进而对基于LDA模型的各类扩展模型进行详细分类,并对其中各类的典型代表进行详细介绍,指出了各个概率主题模型被提出的原因以及其模型的具体形式、所具有的优缺点、适宜解决的问题等,进而又指出近年来主题模型典型应用场景;此外,本文还对目前概率主题模型常用的几个公认的数据集、评测方法以及典型实验结果进行详细介绍,并在最后指明了概率主题模型在进一步研究中需要解决的问题以及未来可能的发展方向. 展开更多
关键词 主题模型 文本挖掘 LDA 高维数据 自然语言处理
下载PDF
离群点挖掘研究 被引量:27
4
作者 徐翔 刘建伟 罗雄麟 《计算机应用研究》 CSCD 北大核心 2009年第1期34-40,共7页
随着人们对欺诈检测、网络入侵、故障诊断等问题的关注,离群点挖掘研究日益受到重视。在充分调研国内外离群点挖掘研究成果的基础上,介绍了数据库领域离群点挖掘的研究进展,并概要地总结和比较了已有的各种离群点挖掘方法,展望了离群点... 随着人们对欺诈检测、网络入侵、故障诊断等问题的关注,离群点挖掘研究日益受到重视。在充分调研国内外离群点挖掘研究成果的基础上,介绍了数据库领域离群点挖掘的研究进展,并概要地总结和比较了已有的各种离群点挖掘方法,展望了离群点挖掘研究的未来发展方向和面临的挑战。 展开更多
关键词 离群点 数据挖掘 局部离群点 高维数据 数据流
下载PDF
基于Autoencoder网络的数据降维和重构 被引量:30
5
作者 胡昭华 宋耀良 《电子与信息学报》 EI CSCD 北大核心 2009年第5期1189-1192,共4页
在机器学习,模式识别以及数据挖掘等诸多研究领域中,往往会面临着"维数灾难"问题。因此,特征数据的降维方法,即将高维的特征数据如何进行简化投射到低维空间中再进行处理,成为当前数据驱动的计算方法研究热点之一。该文引入... 在机器学习,模式识别以及数据挖掘等诸多研究领域中,往往会面临着"维数灾难"问题。因此,特征数据的降维方法,即将高维的特征数据如何进行简化投射到低维空间中再进行处理,成为当前数据驱动的计算方法研究热点之一。该文引入一种特殊的非线性降维方法,称为自编码(Autoencoder)神经网络,该方法采用CRBM(Continuous Restricted Boltzmann Machine)的网络结构,通过训练具有多个中间层的双向深层神经网络将高维数据转换成低维嵌套并继而重构高维数据。特别地,自编码网络提供了高维数据空间和低维嵌套结构的双向映射,有效解决了大多数非线性降维方法所不具备的逆向映射问题。将Autoencoder用于人工数据和真实图像数据的实验表明,Autoencoder不仅能发现嵌入在高维数据中的非线性低维结构,也能有效地从低维结构中恢复原始高维数据。 展开更多
关键词 自编码网络 高维数据 降维 重构
下载PDF
高维数据降维方法研究 被引量:23
6
作者 余肖生 周宁 《情报科学》 CSSCI 北大核心 2007年第8期1248-1251,共4页
本文介绍了MDS、Isomap等三种主要的高维数据降维方法,同时对这些降维方法的作用进行了探讨。
关键词 高维数据 降维 MDS ISOMAP LLE
下载PDF
优化子空间的高维聚类算法 被引量:27
7
作者 吴涛 陈黎飞 郭躬德 《计算机应用》 CSCD 北大核心 2014年第8期2279-2284,共6页
针对当前大多数典型软子空间聚类算法未能考虑簇类投影子空间的优化问题,提出一种新的软子空间聚类算法。该算法将最大化权重之间的差异性作为子空间优化的目标,并提出了一个量化公式。以此为基础设计了一个新的优化目标函数,在最小化... 针对当前大多数典型软子空间聚类算法未能考虑簇类投影子空间的优化问题,提出一种新的软子空间聚类算法。该算法将最大化权重之间的差异性作为子空间优化的目标,并提出了一个量化公式。以此为基础设计了一个新的优化目标函数,在最小化簇内紧凑度的同时,优化每个簇所在的软子空间。通过数学推导得到了新的特征权重计算方法,并基于k-means算法框架定义了新聚类算法。实验结果表明,所提算法对子空间的优化降低了算法过早陷入局部最优的可能性,提高了算法的稳定性,并且具有良好的性能和聚类效果,适合用于高维数据聚类分析。 展开更多
关键词 高维数据 聚类 子空间优化 特征权重 差异
下载PDF
高维数据中的相似性度量算法的改进 被引量:23
8
作者 邵昌昇 楼巍 严利民 《计算机技术与发展》 2011年第2期1-4,共4页
高维数据之间的相似性度量问题是高维空间数据挖掘中所面临的问题之一。为了有效解决高维效应给相似性度量带来的种种问题,首先分析传统相似性度量算法,得出其局限性。再通过对传统度量算法进行改进,提出新的Close函数,以弥补传统相似... 高维数据之间的相似性度量问题是高维空间数据挖掘中所面临的问题之一。为了有效解决高维效应给相似性度量带来的种种问题,首先分析传统相似性度量算法,得出其局限性。再通过对传统度量算法进行改进,提出新的Close函数,以弥补传统相似性度量算法应用在高维空间时的不足。提出Close函数后,将其与几种传统的相似性度量算法作比较,得出新算法在高维空间相似性度量方面的优越性。文中最后用Matlab对该函数做了定量分析,实验证明该函数在高维空间中能有效避免噪声和维灾效应的影响。 展开更多
关键词 数据挖掘 高维数据 相似性度量
下载PDF
基于随机森林的加权特征选择算法 被引量:23
9
作者 徐少成 李东喜 《统计与决策》 CSSCI 北大核心 2018年第18期25-28,共4页
文章提出了一种基于随机森林的加权特征选择算法WRFFS。算法以随机森林为基础,以分类精度作为筛选特征子集的标准,通过在数据集上构造多棵决策树,采用交叉验证的方式进行特征的重要性度量,各决策树的权重和特征重要性度量加权求和决定... 文章提出了一种基于随机森林的加权特征选择算法WRFFS。算法以随机森林为基础,以分类精度作为筛选特征子集的标准,通过在数据集上构造多棵决策树,采用交叉验证的方式进行特征的重要性度量,各决策树的权重和特征重要性度量加权求和决定了最终的特征重要性排序,然后再采用序列后向选择法(Se-quential backward selection,SBS)进行特征的筛选,其中决策树的权重由该决策树与预测结果的相符程度来决定。最后,通过对比实验表明该方法WRFFS比已有文献中方法具有更好的分类性能。 展开更多
关键词 高维数据 随机森林 加权特征选择 封装式
下载PDF
高维激光拉曼光谱的构建与降噪处理评价研究 被引量:22
10
作者 张正勇 桂冬冬 +2 位作者 马蕴文 沙敏 王海燕 《应用激光》 CSCD 北大核心 2018年第3期468-473,共6页
光谱在采集过程中,时常伴随随机噪声,为获得高质量的样品光谱信息,必要的光谱降噪处理成为光谱预处理环节的重要组成部分,目前,针对高维激光拉曼光谱的构建与降噪研究相对较少。以羊奶粉为例,提出了以激光强度为外扰的二维相关高维拉曼... 光谱在采集过程中,时常伴随随机噪声,为获得高质量的样品光谱信息,必要的光谱降噪处理成为光谱预处理环节的重要组成部分,目前,针对高维激光拉曼光谱的构建与降噪研究相对较少。以羊奶粉为例,提出了以激光强度为外扰的二维相关高维拉曼光谱的构建,实现了样品的三维拉曼光谱分析,展现了更为丰富的光谱信息;其次,提出了以相关系数为评价指标的高维拉曼光谱降噪策略评估方法,研究了Savitzky-Golay滤波,Haar小波,Daubechies小波和Biorthogonal小波处理拉曼光谱数据的降噪效果。结果显示,拉曼光谱数据蕴含丰富的样品化学特征信息,通过光谱降噪处理可有效降低随机噪声的影响,不同降噪函数的光谱处理效果存在差异,以相关系数为评估指标可量化分析降噪函数的适用性,针对实验体系,SavitzkyGolay滤波降噪处理效果较好。 展开更多
关键词 激光拉曼光谱 降噪 高维数据 奶粉 二维相关
原文传递
一种有效的基于网格和密度的聚类分析算法 被引量:12
11
作者 胡泱 陈刚 《计算机应用》 CSCD 北大核心 2003年第12期64-67,共4页
讨论数据挖掘中聚类的相关概念、技术和算法。提出一种基于网格和密度的算法,它的优点在于能够自动发现包含有趣知识的子空间,并将里面存在的所有聚类挖掘出来;另一方面它能很好地处理高维数据和大数据集的数据表格。算法将最后的结果用... 讨论数据挖掘中聚类的相关概念、技术和算法。提出一种基于网格和密度的算法,它的优点在于能够自动发现包含有趣知识的子空间,并将里面存在的所有聚类挖掘出来;另一方面它能很好地处理高维数据和大数据集的数据表格。算法将最后的结果用DNF的形式表示出来。 展开更多
关键词 数据挖掘 聚类 网格 密度 高维数据 子空间 最大区域 DNF表达式
下载PDF
理解现代计量经济学 被引量:22
12
作者 洪永淼 《计量经济学报》 2021年第2期266-284,共19页
本文基于现代计量经济学的发展历程,介绍了现代计量经济学的思想、理论、主要内容体系、模型、方法与工具.文中首先回顾经典计量经济学中经典线性回归模型的基本假设,并考察通过扬弃这些假设,发展而来的现代计量经济学的历史背景,进而... 本文基于现代计量经济学的发展历程,介绍了现代计量经济学的思想、理论、主要内容体系、模型、方法与工具.文中首先回顾经典计量经济学中经典线性回归模型的基本假设,并考察通过扬弃这些假设,发展而来的现代计量经济学的历史背景,进而阐述现代计量经济学的理论体系与主要内容;同时讨论了在大数据时代,大数据为计量经济学带来的挑战与机遇,以及计量经济学今后发展的若干重要方向与趋势. 展开更多
关键词 非实验性 线性回归模型 非线性模型 模型设定 正态分布 条件异方差 内生性 工具变量 广义矩估计 平稳性 结构变化 模型不确定性 大数据 高维数据 机器学习 预测 因果关系 政策评估
原文传递
二分网格聚类方法及有效性 被引量:15
13
作者 岳士弘 王正友 《计算机研究与发展》 EI CSCD 北大核心 2005年第9期1505-1510,共6页
这是一个新的基于网格的聚类算法.通过逐级二分每个网格成为等体积的两部分,算法使用新的标准度量所有格之间的不相似性,并借此找到数据集中聚类原型的候选,能够克服目前基于网格聚类算法的聚类结果对输入参数敏感的缺点,并且以线性的... 这是一个新的基于网格的聚类算法.通过逐级二分每个网格成为等体积的两部分,算法使用新的标准度量所有格之间的不相似性,并借此找到数据集中聚类原型的候选,能够克服目前基于网格聚类算法的聚类结果对输入参数敏感的缺点,并且以线性的计算时间耗费,在包含任意形状和密度分布不均匀类的数据集中运行得很好.通过两个实验验证了所提出算法的有效性. 展开更多
关键词 二分法 聚类分析 高维数据 有效性
下载PDF
基于归一化互信息的FCBF特征选择算法 被引量:19
14
作者 段宏湘 张秋余 张墨逸 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第1期52-56,共5页
针对高维数据中不相关特征、冗余特征等导致的分类任务计算量大、分类正确率低等问题,提出了一种基于归一化互信息的相关性快速过滤特征选择(FCBF-NMI)算法.该算法采用归一化互信息代替对称不确定性作为FCBF算法的相关性评价标准,进行... 针对高维数据中不相关特征、冗余特征等导致的分类任务计算量大、分类正确率低等问题,提出了一种基于归一化互信息的相关性快速过滤特征选择(FCBF-NMI)算法.该算法采用归一化互信息代替对称不确定性作为FCBF算法的相关性评价标准,进行特征与类别、特征与特征的相关性分析,删除不相关特征及冗余特征以获得最优特征子集.实验结果表明:FCBF-NMI算法得到的最优特征子集更合理,平均分类正确率为89.68%,所用时间平均低至2.64s. 展开更多
关键词 高维数据 特征选择 归一化互信息 相关性快速过滤特征选择(FCBF) 分类
原文传递
一种基于学习的高维数据c-近似最近邻查询算法 被引量:18
15
作者 袁培森 沙朝锋 +1 位作者 王晓玲 周傲英 《软件学报》 EI CSCD 北大核心 2012年第8期2018-2031,共14页
针对高维数据近似最近邻查询,在过滤-验证框架下提出了一种基于学习的数据相关的c-近似最近邻查询算法.证明了数据经过随机投影之后,满足语义哈希技术所需的熵最大化准则.把经过随机投影的二进制数据作为数据的类标号,训练一组分类器用... 针对高维数据近似最近邻查询,在过滤-验证框架下提出了一种基于学习的数据相关的c-近似最近邻查询算法.证明了数据经过随机投影之后,满足语义哈希技术所需的熵最大化准则.把经过随机投影的二进制数据作为数据的类标号,训练一组分类器用来预测查询的类标号.在此基础上计算查询与数据集中数据对象的海明距离.最后,在过滤后的候选数据集上计算查询的最近邻.与现有方法相比,该方法对空间需求更小,编码长度更短,效率更高.模拟数据集和真实数据集上的实验结果表明,该方法不仅能够提高查询效率,而且方便调控在查询质量和查询处理时间方面的平衡问题. 展开更多
关键词 随机投影 c-近似最近邻查询 支持向量机分类器 高维数据 熵最大化准则 位置敏感哈希
下载PDF
基于深度信念网络和线性单分类SVM的高维异常检测 被引量:18
16
作者 李昊奇 应娜 +1 位作者 郭春生 王金华 《电信科学》 2018年第1期34-42,共9页
针对目前高维数据异常检测存在的困难,提出一种基于深度信念网络和线性单分类支持向量机的高维异常检测算法。该算法首先利用深度信念网络具有良好的特征提取功能,实现高维数据的降维,然后基于线性核函数的单分类支持向量机实现异常检... 针对目前高维数据异常检测存在的困难,提出一种基于深度信念网络和线性单分类支持向量机的高维异常检测算法。该算法首先利用深度信念网络具有良好的特征提取功能,实现高维数据的降维,然后基于线性核函数的单分类支持向量机实现异常检测。选取UCI机器学习库中的高维数据集进行实验,结果表明,该算法在检测正确率和计算复杂度上均有明显优势。与PCA-SVDD算法相比,检测正确率有4.65%的提升。与自动编码器算法相比,其训练和测试时间均有显著下降。 展开更多
关键词 异常检测 高维数据 深度信念网络 单分类支持向量机
下载PDF
基于差分演化算法的软子空间聚类 被引量:18
17
作者 毕志升 王甲海 印鉴 《计算机学报》 EI CSCD 北大核心 2012年第10期2116-2128,共13页
软子空间聚类算法的性能主要取决于其目标函数和搜索策略.文中提出了一种基于差分演化算法的软子空间聚类算法DESC.首先,设计了一个结合模糊加权类内相似性和界约束权值矩阵的新目标函数.然后,提出了新的隶属度计算方法.最后,引入了一... 软子空间聚类算法的性能主要取决于其目标函数和搜索策略.文中提出了一种基于差分演化算法的软子空间聚类算法DESC.首先,设计了一个结合模糊加权类内相似性和界约束权值矩阵的新目标函数.然后,提出了新的隶属度计算方法.最后,引入了一种有效的全局搜索算法——复合差分演化算法,并运用该算法优化新目标函数和搜索子空间中的聚类.实验表明,新目标函数和复合差分演化算法的引入有效地提高了软子空间聚类算法的性能,新算法较已有软子空间聚类算法有明显优势. 展开更多
关键词 高维数据 子空间聚类 差分演化 模糊聚类 文本分类
下载PDF
基于角度方差的多层次高维数据异常检测算法 被引量:15
18
作者 陈圣楠 钱红燕 李伟 《计算机应用研究》 CSCD 北大核心 2016年第11期3383-3386,共4页
异常检测一直是数据挖掘领域的重要工作之一。基于欧氏距离的异常检测算法在应用于高维数据时存在检测精度无法保证和运行时间过长的问题。在基于角度方差的异常检测算法基础上,提出了一种多层次的高维数据异常检测算法(hybrid outlier ... 异常检测一直是数据挖掘领域的重要工作之一。基于欧氏距离的异常检测算法在应用于高维数据时存在检测精度无法保证和运行时间过长的问题。在基于角度方差的异常检测算法基础上,提出了一种多层次的高维数据异常检测算法(hybrid outlier detection algorithm based on angle variance for high-dimensional data,HODA)。算法结合了粗糙集理论,分析属性之间的相互作用以排除影响较小的属性;通过分析各维度上的数据分布,对数据进行网格划分,寻找可能存在异常点的网格;最后对可能存在异常点的网格计算角度方差异常因子,筛选异常数据。实验结果表明,与ABOD、Fast VOA和经典LOF算法相比,HODA算法在保证精测精度的前提下,运行时间显著缩短,且可扩展性强。 展开更多
关键词 高维数据 异常检测 降维 网格 角度方差
下载PDF
高维数据中变量选择研究 被引量:14
19
作者 宋瑞琪 朱永忠 王新军 《统计与决策》 CSSCI 北大核心 2019年第2期13-16,共4页
如何在高维数据空间中筛选有用变量,提取有用的信息,是大数据时代研究的热点之一。文章将变量选择的方法应用于高维数据,通过模拟仿真,引进敏感性与特异性,分析比较岭回归、Lasso、自适应Lasso以及Elastic Net回归等方法的适用领域,并... 如何在高维数据空间中筛选有用变量,提取有用的信息,是大数据时代研究的热点之一。文章将变量选择的方法应用于高维数据,通过模拟仿真,引进敏感性与特异性,分析比较岭回归、Lasso、自适应Lasso以及Elastic Net回归等方法的适用领域,并指出变量选择方法的应用前景。 展开更多
关键词 大数据 系数压缩法 变量选择 高维数据
下载PDF
高维数据聚类可视分析方法综述 被引量:14
20
作者 章蓉 陈谊 +1 位作者 张梦录 孟可欣 《图学学报》 CSCD 北大核心 2020年第1期44-56,共13页
数据聚类的可视分析方法利用可视化与交互技术帮助用户对聚类过程与结果进行多角度分析,从而发现数据内部隐藏的结构和关系。但由于高维数据自身的“维度诅咒”问题使得聚类分析面临着许多挑战,例如模型参数设定、数据特征捕捉、结果解... 数据聚类的可视分析方法利用可视化与交互技术帮助用户对聚类过程与结果进行多角度分析,从而发现数据内部隐藏的结构和关系。但由于高维数据自身的“维度诅咒”问题使得聚类分析面临着许多挑战,例如模型参数设定、数据特征捕捉、结果解释以及可视化展现等。本文从高维数据聚类过程中遇到的问题出发,首先总结了高维数据聚类过程中常用的数据处理方法并对其性能进行了比较,这些方法能够较好地解决“维度诅咒”问题,帮助用户挖掘数据中存在的聚类模式。在分析和理解不同聚类结果中包含的数据内部结构和规律时,由于前期采取的数据处理方法不同,因此需要采取不同的探索分析策略,所以本文将近10年来高维数据聚类的可视分析方法分为2大类进行总结,即基于降维的聚类可视分析方法和基于子空间聚类的可视分析方法。最后对该领域目前存在的机遇与挑战进行了讨论。 展开更多
关键词 可视分析 聚类 高维数据 综述
下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部