-
题名基于改进的K-Means算法在SNP选择中的应用
- 1
-
-
作者
陆信蓓
周从华
张付全
张婷
蒋跃明
-
机构
江苏大学计算机科学与通信工程学院
无锡市精神卫生中心
无锡市妇幼保健院
无锡市第五人民医院
-
出处
《计算机与数字工程》
2020年第8期1943-1947,1964,共6页
-
基金
江苏省重点研发计划(社会发展)项目(编号:BE2016630,BE2017628)
无锡市卫生计生委科研项目(编号:z201603)资助。
-
文摘
SNP数据作为重要的基因变异数据,是目前生物信息学领域中重要的课题之一,但由于SNP数据中存在较多的冗余和噪声,因此对SNP数据进行特征提取尤为重要。论文针对SNP数据少样本、高维度的问题和SNP位点之间具有强相关性的特点,在K-Means聚类中引入互信息,提出了一种改进的聚类算法K-MIM,将其应用于SNP选择中。K-MIM算法解决了传统的K-Means算法不能挖掘出SNP位点之间内在关系的问题,并在医院提供的临床数据实验结果表明,K-MIM/蚁群算法所筛选出的信息SNP子集,较K-Means/蚁群、MCMR、ReliefF等算法所筛选出的信息SNP子集,具有更高的非信息SNP子集重构度和更好的分类效果。
-
关键词
单核苷酸多态
SNP选择
特征选择
互信息
K-MEANS
-
Keywords
single nucleotide polymorphisms
SNP selection
feature selection
mutual information
K-Means
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-