最大信息系数(Maximum information coefficient,MIC)可以对变量间的线性和非线性关系,以及非函数依赖关系进行有效度量.本文首先根据最大信息系数理论,提出了一种评价各维特征间以及每维特征与类别间相关性的度量标准,然后提出了基于...最大信息系数(Maximum information coefficient,MIC)可以对变量间的线性和非线性关系,以及非函数依赖关系进行有效度量.本文首先根据最大信息系数理论,提出了一种评价各维特征间以及每维特征与类别间相关性的度量标准,然后提出了基于新度量标准的近似马尔科夫毯特征选择方法,删除冗余特征.在此基础上提出了基于特征排序和近似马尔科夫毯的两阶段特征选择方法,分别对特征的相关性和冗余性进行分析,选择有效的特征子集.在UCI和ASU上的多个公开数据集上的对比实验表明,本文提出的方法总体优于快速相关滤波(Fast correlation-based filter,FCBF)方法,与Relief F,FAST,Lasso和RFS方法相比也具有优势.展开更多
目前,关于直流电压下局部放电信号特征提取技术的研究极少。用于表征连续放电间相关关系的特征散点图是常用的统计分析方法,但现阶段仅用于定性分析放电现象。引入互信息、最大信息系数(maximal information coefficient,MIC)、最大...目前,关于直流电压下局部放电信号特征提取技术的研究极少。用于表征连续放电间相关关系的特征散点图是常用的统计分析方法,但现阶段仅用于定性分析放电现象。引入互信息、最大信息系数(maximal information coefficient,MIC)、最大信息非参数扩展类(maximal information-based non-parametric exploration,MINE)等先进的非线性相关特征分析手段,提取该类散点图定量特征。基于互信息的MIC和MINE具有普适性、公平性和对称性等重要特性。最终共提取了36个相关特征参数,与22个传统统计算子一起组成特征指纹。之后,使用最大相关最小冗余(mR MR)算法选取最优特征指纹空间并使用MIC进行优化。利用XLPE单芯电缆制作了绝缘内部气隙、主绝缘表面划伤、高压端毛刺电晕、半导电层爬电4类典型绝缘缺陷模型,将文中方法应用于试验数据分析。最终确定了含有48个参数的最优特征指纹,使用人工神经网络等机器学习方法进行模式识别可获得91%的平均识别精度。该结果表明,使用文中方法提取的散点图非线性特征可以有效反映放电模式。展开更多
页岩气初期产能直接影响单井最终采收率,分析页岩气初期产能主控因素,对页岩气开发方案的设计与优化有重要意义。基于文献调研,定性研究各种因素对页岩气初期产能的影响机理;运用皮尔逊-最大信息系数(Pearson-maximal information coeff...页岩气初期产能直接影响单井最终采收率,分析页岩气初期产能主控因素,对页岩气开发方案的设计与优化有重要意义。基于文献调研,定性研究各种因素对页岩气初期产能的影响机理;运用皮尔逊-最大信息系数(Pearson-maximal information coefficient,Pearson-MIC)相关性综合分析方法,对各因素与页岩气初期产能之间的相关性进行定量计算;按照一定筛选原则,优选页岩气初期产能主控因素,对比传统相关性分析方法,证明本文方法的可靠性。研究表明:对页岩气初期产能有直接影响的因素主要包括地质因素8个,工程因素10个;页岩气初期产能主控因素包括优质页岩厚度、总有机碳含量、含气量、压力系数、脆性矿物含量、优质储层钻遇程度、压裂段数、射孔簇数、总液量、单段砂量、施工排量;相比传统相关性分析方法,"Pearson-MIC"相关性综合分析方法的评价结果要更可靠。展开更多
为解决单一结构学习算法中普遍存在的学习效果差、易陷入局部最优等问题,本文通过引入最大信息系数MIC(Maximal Information Coefficient)和集成学习思想,提出了一种新的贝叶斯网络结构学习算法.该算法首先利用MIC确定节点间的依赖关系...为解决单一结构学习算法中普遍存在的学习效果差、易陷入局部最优等问题,本文通过引入最大信息系数MIC(Maximal Information Coefficient)和集成学习思想,提出了一种新的贝叶斯网络结构学习算法.该算法首先利用MIC确定节点间的依赖关系并得到初始网络,接着使用Bootstrap方法对数据样本进行采样获得若干样本集.依次使用每个样本集,在给定初始网络的基础上,通过BDe评分和禁忌搜索算法训练生成贝叶斯网络并将其用邻接矩阵表示.进而利用集成学习策略,根据得到的若干邻接矩阵计算每条边的权重,并通过设定权重阈值得到集成学习结果.根据集成学习结果利用反馈策略更新初始网络并进入下一次迭代,经过不断迭代最终得到贝叶斯网络结构.最后在7种不同大小的标准数据集中进行实验,计算F1值(F 1-score)、汉明距离HD(Hamming Distance)和学习到的正确边数(TP),并与其它算法进行对比分析.结果表明本文提出的算法在可行性、有效性和普适性上更优.展开更多
文摘页岩气初期产能直接影响单井最终采收率,分析页岩气初期产能主控因素,对页岩气开发方案的设计与优化有重要意义。基于文献调研,定性研究各种因素对页岩气初期产能的影响机理;运用皮尔逊-最大信息系数(Pearson-maximal information coefficient,Pearson-MIC)相关性综合分析方法,对各因素与页岩气初期产能之间的相关性进行定量计算;按照一定筛选原则,优选页岩气初期产能主控因素,对比传统相关性分析方法,证明本文方法的可靠性。研究表明:对页岩气初期产能有直接影响的因素主要包括地质因素8个,工程因素10个;页岩气初期产能主控因素包括优质页岩厚度、总有机碳含量、含气量、压力系数、脆性矿物含量、优质储层钻遇程度、压裂段数、射孔簇数、总液量、单段砂量、施工排量;相比传统相关性分析方法,"Pearson-MIC"相关性综合分析方法的评价结果要更可靠。
文摘为解决单一结构学习算法中普遍存在的学习效果差、易陷入局部最优等问题,本文通过引入最大信息系数MIC(Maximal Information Coefficient)和集成学习思想,提出了一种新的贝叶斯网络结构学习算法.该算法首先利用MIC确定节点间的依赖关系并得到初始网络,接着使用Bootstrap方法对数据样本进行采样获得若干样本集.依次使用每个样本集,在给定初始网络的基础上,通过BDe评分和禁忌搜索算法训练生成贝叶斯网络并将其用邻接矩阵表示.进而利用集成学习策略,根据得到的若干邻接矩阵计算每条边的权重,并通过设定权重阈值得到集成学习结果.根据集成学习结果利用反馈策略更新初始网络并进入下一次迭代,经过不断迭代最终得到贝叶斯网络结构.最后在7种不同大小的标准数据集中进行实验,计算F1值(F 1-score)、汉明距离HD(Hamming Distance)和学习到的正确边数(TP),并与其它算法进行对比分析.结果表明本文提出的算法在可行性、有效性和普适性上更优.