基于最近邻互信息的特征选择算法被引量：8

Feature selection algorithm based on nearest-neighbor mutual information

下载PDF

导出

摘要针对邻域信息系统的特征选择模型存在人为设定邻域参数值的问题。分别计算样本与最近同类样本和最近异类样本的距离,用于定义样本的最近邻以确定信息粒子的大小。将最近邻的概念扩展到信息理论,提出最近邻互信息。在此基础上,采用前向贪心搜索策略构造了基于最近邻互信息的特征算法。在两个不同基分类器和八个UCI数据集上进行实验。实验结果表明:相比当前多种流行算法,该模型能够以较少的特征获得较高的分类性能。 Feature selection of neighborhood information system is constrained by the neighborhood size. First, this paper calculates the distance between a given sample and its nearest samples with the same and different labels to define the concept of nearest-neighbor, and determines the size of nearest neighbor simultaneously. Second, the notion of nearest-neighbor is extended to Shannon information theory, and the concept of nearest neighbor mutual information is presented. Then, a forward greedy strategy is used to construct feature selection algorithm based on nearest-neighbor mutual information.Finally, experiments are conducted on eight UCI data sets and two different base classifiers. Experimental results show that the proposed algorithm selects a few features and effectively improves classification performance compared with other popular algorithms.

作者王晨曦林耀进刘景华林梦雷 WANG Chenxi;LIN Yaojin;LIU Jinghua;LIN Menglei(Department of Computer Engineering, Zhangzhou Institute of Technology, Zhangzhou, Fujian 363000, China;School of Computer Science, Minnan Normal University, Zhangzhou, Fujian 363000, China)

机构地区漳州职业技术学院计算机工程系闽南师范大学计算机学院

出处《计算机工程与应用》 CSCD 北大核心 2016年第18期74-78,共5页 Computer Engineering and Applications

基金国家自然科学基金(No.61303131) 福建省自然科学基金(No.2013J01028) 福建省教育厅科技项目(No.JA14192 No.JAT60866)

关键词特征选择最近邻互信息邻域互信息 feature selection nearest-neighbor mutual information neighborhood mutual information

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献20

1Liang J,Wang F,Dang C,et al.An efficient rough featureselection algorithm with a multi-granulation view[J].InternationalJournal of Approximate Reasoning,2012,53:912-926. 被引量：1
2Guyon I,Elisseeff A.An introduction to variable and featureselection[J].Journal of Machine Learning Research,2003,3:1157-1182. 被引量：1
3Dash M,Liu H.Consistency-based search in feature selection[J].Artificial Intelligence,2003,151:155-176. 被引量：1
4Zhu W,Si G,Zhang Y,et al.Neighborhood effective information ratio for hybrid feature subset evaluation and selection[J].Neurocomputing,2013,99:25-37. 被引量：1
5Kononenko I.Estimation attributes:analysis and extensionsof RELIEF[C].Proceedings of the 1994 European Conferenceon Machine Learning,1994:171-182. 被引量：1
6Lin Y,Li J,Lin P.Feature selection via neighborhoodmultigranulation fusion[J].Knowledge-Based Systems,2014,67:162-168. 被引量：1
7Battiti R.Using mutual information for selecting featuresin supervised neural net learning[J].IEEE Transactions onNeural Networks,1994,5(4):537-550. 被引量：1
8Peng H,Long F,Ding C.Feature selection based on mutualinformation:criteria of max-dependency,max-relevance,and min-redundancy[J].IEEE Transactions on Pattern Analysisand Machine Intelligence,2005,27(8):1226-1238. 被引量：1
9Yu L,Liu H.Efficient feature selection via analysis ofrelevance and redundancy[J].Journal of Machine LearningResearch,2004,5(1):1205-1224. 被引量：1
10Lin Y,Hu X,Wu X.Quality of information-based sourceassessment and selection[J].Neurocomputing,2014,133:95-102. 被引量：1

二级参考文献11

1于达仁,胡清华,鲍文.融合粗糙集和模糊聚类的连续数据知识发现[J].中国电机工程学报,2004,24(6):205-210. 被引量：70
2朱永利,吴立增,李雪玉.贝叶斯分类器与粗糙集相结合的变压器综合故障诊断[J].中国电机工程学报,2005,25(10):159-165. 被引量：82
3谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134
4徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
5王永强,律方成,李和明.基于粗糙集理论和贝叶斯网络的电力变压器故障诊断方法[J].中国电机工程学报,2006,26(8):137-141. 被引量：100
6孙秋野,张化光.基于粗糙集的配电系统连续信号故障诊断方法[J].中国电机工程学报,2006,26(11):156-161. 被引量：12
7王珏,王任,苗夺谦,郭萌,阮永韶,袁小红,赵凯.基于Rough Set理论的“数据浓缩”[J].计算机学报,1998,21(5):393-400. 被引量：239
8常犁云,263.net,王国胤,263.net,吴渝,263.net.一种基于Rough Set理论的属性约简及规则提取方法[J].软件学报,1999,10(11):1206-1211. 被引量：285
9石云,263.net,孙玉芳,左春.基于Rough Set的空间数据分类方法[J].软件学报,2000,11(5):673-678. 被引量：25
10刘清,刘少辉,郑非.Rough逻辑及其在数据约简中的应用[J].软件学报,2001,12(3):415-419. 被引量：54

共引文献291

1林耀进,白盛兴,赵红,李绍滋,胡清华.基于标签关联性的分层分类共有与固有特征选择[J].软件学报,2022,33(7):2667-2682. 被引量：6
2侯贤宇,陈玉明,吴克寿.多采样近似粒集成学习[J].南京大学学报（自然科学版）,2024,60(1):118-129.
3程凤伟,王文剑,张珍珍.面向高维小样本数据的层次子空间ReliefF特征选择算法[J].南京大学学报（自然科学版）,2023,59(6):928-936. 被引量：1
4孙泽金,赵荣珍.基于EEMD能量矩与邻域粗糙集的转子故障数据集分类方法[J].计算机应用研究,2020,37(2):460-464. 被引量：5
5ZHAO Rong-zhen,LIAN Jin.基于邻域粗糙集概念的一种滚动轴承特征提取方法[J].兰州理工大学学报,2019,45(6):34-39. 被引量：2
6赵佰亭,陈希军,曾庆双.广义不完备混合决策系统的知识约简[J].四川大学学报（工程科学版）,2009,41(6):177-182. 被引量：3
7梁吉业,李超伟,魏巍.基于Rough Sets的特征选择研究进展[J].山西大学学报（自然科学版）,2012,35(2):211-218. 被引量：2
8李华雄,周献中.基于0-1分辨矩阵的启发式属性约简[J].中南大学学报（自然科学版）,2009,40(S1):304-308. 被引量：2
9韩建光,惠晓峰,孙洁.遗传算法选择性集成多分类器的企业财务困境预测[J].系统工程,2010,28(8):9-15. 被引量：4
10赵勇,方宗德,王侃伟,庞辉.邻域粗糙集在轮对踏面缺陷图像特征选择的应用[J].计算机测量与控制,2008,16(11):1730-1731. 被引量：3

同被引文献61

1郑皎凌,唐常杰,姜玥,杨宁,李红军.基于伪属性语义匹配的Deep web信息抽取[J].四川大学学报（工程科学版）,2009,41(2):173-178. 被引量：4
2杨欢,张玉清,胡予濮,刘奇旭.基于权限频繁模式挖掘算法的Android恶意应用检测方法[J].通信学报,2013,34(S1):106-115. 被引量：47
3崔文岩,孟相如,李纪真,王明鸣,陈天平,王坤.基于粗糙集粒子群支持向量机的特征选择方法[J].微电子学与计算机,2015,32(1):120-123. 被引量：9
4高鹰,谢胜利.混沌粒子群优化算法[J].计算机科学,2004,31(8):13-15. 被引量：104
5任江涛,姚树宇,纪庆革.一种基于PSO同步进行特征选择及参数优化的核K近邻分类算法[J].小型微型计算机系统,2007,28(8):1461-1464. 被引量：5
6琚春华,郑丽丽.基于隐私保护的分类算法在反洗钱领域的研究[J].微电子学与计算机,2009,26(10):200-202. 被引量：1
7李云,张腾飞,杨文杰.基于K近邻分类间隔的特征选择方法研究[J].南京邮电大学学报（自然科学版）,2009,29(6):68-74. 被引量：2
8王利,刘宗田,王燕华,廖涛.基于内容相似度的网页正文提取[J].计算机工程,2010,36(6):102-104. 被引量：20
9戴平,李宁.一种基于SVM的快速特征选择方法[J].山东大学学报（工学版）,2010,40(5):60-65. 被引量：8
10刘建华,杨荣华,孙水华.离散二进制粒子群算法分析[J].南京大学学报（自然科学版）,2011,47(5):504-514. 被引量：62

引证文献8

1韩静丹,孙磊,王帅丽,王泽武.基于BPSO-NB算法的Android恶意应用检测方法[J].计算机与现代化,2017(4):109-113. 被引量：1
2刘云,向婵,王海花.基于互信息的特征选择在入侵检测中的优化[J].西北大学学报（自然科学版）,2017,47(5):666-673. 被引量：4
3刘胜军,刘贵全,陈志华.基于相关性的文本分类特征选择算法[J].信息通信,2017,30(3):73-74.
4朱振国,赵凯旋,刘民康.基于强化学习的特征选择算法[J].计算机系统应用,2018,27(10):214-218. 被引量：3
5吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机,2019,25(7):16-22.
6万志超,胡峰,邓维斌.面向不平衡文本情感分类的三支决策特征选择方法[J].计算机应用,2019,39(11):3127-3133. 被引量：4
7李珑珠,林耀进,吕彦,卢舜,王晨曦.利用邻域信息交互的在线流特征选择算法[J].计算机工程与应用,2021,57(21):102-108. 被引量：2
8宋美艳,刘畅,张津,孙超.基于麻雀算法优化支持向量机的NOx浓度预测[J].计算机仿真,2024,41(7):129-134.

二级引证文献14

1熊云龙.基于改进遗传算法的网络疑似入侵最优数据选取[J].现代电子技术,2018,41(22):163-165. 被引量：5
2戴敏.基于并行特征选择和分类的网络入侵检测方法[J].计算机工程与设计,2019,40(3):654-661. 被引量：13
3谭继安,关继夫.基于人工蜂群算法的分布式入侵攻击检测系统[J].计算机应用与软件,2019,36(3):326-333. 被引量：4
4李光华,李俊清,张亮,辛衍森,邓华伟.一种融合蚁群算法和随机森林的特征选择方法[J].计算机科学,2019,46(S11):212-215. 被引量：23
5彭懋磊,刘可,李垠,吕筱.基于互联网的震后虚假信息入侵实时检测系统设计[J].地震工程学报,2020,42(1):270-275. 被引量：1
6霍林,陆寅丽.改进粒子群算法应用于Android恶意应用检测[J].计算机工程与应用,2020,56(7):96-101. 被引量：7
7孙亦昕,许露,郑翼斐,朱妍,唐媛,董猛,刘宇,胡凯.基于非平衡学习与交互式标注的引文情感动机标注系统[J].软件工程,2020,23(7):56-59. 被引量：1
8陈欢,王忠震.基于TF-IDF特征词提取的不平衡文本分类[J].智能计算机与应用,2020,10(9):73-76. 被引量：1
9郭晶,焦艳斌,张晓韬.电力业务场景下用户特征安全认证模型研究[J].科技资讯,2021,19(8):28-31.
10周桂宇,张超洋,文良华,段志春,文洪.融合随机森林与人工鱼群算法的路径优化预测[J].宜宾学院学报,2021,21(12):20-24.

1徐天贺,马媛媛,徐久成.一种基于邻域互信息最大化和粒子群优化的特征基因选择方法[J].小型微型计算机系统,2016,37(8):1775-1779. 被引量：4
2李晓光,谭建豪.邻域互信息在磁共振颅脑图像配准的应用[J].计算机工程与应用,2009,45(10):154-156. 被引量：2
3殷樱,张玉冰,刘家诚,高昆.基于邻域互信息和K均值的基因选择算法[J].电脑知识与技术,2014(2):821-823.
4刘景华,林梦雷,王晨曦,林耀进.基于最大近邻粗糙逼近的特征选择算法[J].小型微型计算机系统,2015,36(8):1832-1836. 被引量：3
5汝佳,陈莉,房鼎益.一种LDA和聚类融合的SVM多类分类方法[J].西北大学学报（自然科学版）,2014,44(4):559-562. 被引量：9
6王晨曦,林梦雷,刘景华,王娟,林耀进.融合特征排序的多标记特征选择算法[J].计算机工程与应用,2016,52(17):93-100. 被引量：3
7陈辉皇,林耀进,王晨曦,童先群,胡敏杰.基于层次粒化的特征选择算法[J].郑州大学学报（理学版）,2016,48(3):69-74. 被引量：1
8林培榕.基于邻域互信息最大相关性最小冗余度的特征选择[J].漳州师范学院学报（自然科学版）,2013,26(4):13-18. 被引量：1
9张维,苗夺谦,高灿,岳晓冬.邻域粗糙协同分类模型[J].计算机研究与发展,2014,51(8):1811-1820. 被引量：12
10徐久成,徐天贺,孙林,任金玉.基于邻域粗糙集和粒子群优化的肿瘤分类特征基因选取[J].小型微型计算机系统,2014,35(11):2528-2532. 被引量：13

计算机工程与应用

2016年第18期

浏览历史

内容加载中请稍等...

基于最近邻互信息的特征选择算法被引量：8

参考文献20

二级参考文献11

共引文献291

同被引文献61

引证文献8

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于最近邻互信息的特征选择算法 被引量：8

参考文献20

二级参考文献11

共引文献291

同被引文献61

引证文献8

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于最近邻互信息的特征选择算法被引量：8