-
题名融合卷积与自注意力机制的基因型填补算法
- 1
-
-
作者
陈炯环
鲍胜利
王啸飞
李若凡
-
机构
中国科学院成都计算机应用研究所
中国科学院大学
-
出处
《计算机应用》
CSCD
北大核心
2023年第11期3534-3539,共6页
-
基金
中国科学院“西部青年学者”项目(RRJZ2021003)。
-
文摘
基因型填补可以通过填补估算出在基因测序数据中未覆盖的样本区域弥补因技术限制导致的缺失,但现有的基于深度学习的填补方法不能有效捕捉到全序列位点间的连锁关系,造成整体填补准确率低、批量序列填补准确率分散等问题。针对这些问题提出一种融合卷积与自注意力机制的填补方法——FCSA,使用两种融合模块构成编解码器组建网络模型。编码器融合模块使用自注意力层得到全序列位点间的关联度,将该关联度融合到全局位点后再通过卷积层提取局部特征;解码器融合模块使用卷积对编码后的低维向量进行局部特征重建,应用自注意力层对全序列建模并融合。使用多物种的动物基因数据进行模型训练,并在Dog、Pig和Chicken数据集上进行比较验证,结果表明,与SCDA(Sparse Convolutional Denoising Autoencoders)、AGIC(Autoencoder Genome Imputation and Compression)和U-net相比,FCSA在10%、20%和30%缺失率下的平均填补准确率均取得了最高值,且批量序列填补准确率的分散程度较小;消融实验的结果也表明,这两种融合模块的设计能够有效提升基因型填补的准确率。
-
关键词
基因型填补
卷积
自注意力
融合模块
全序列建模
-
Keywords
genotype imputation
convolution
self-attention
fusion module
full sequence modeling
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于潜在因子模型在子空间上的缺失值注意力聚类算法
- 2
-
-
作者
王啸飞
鲍胜利
陈炯环
-
机构
中国科学院成都计算机应用研究所
中国科学院大学
-
出处
《计算机应用》
CSCD
北大核心
2023年第12期3772-3778,共7页
-
基金
中国科学院西部青年学者项目(RRJZ2021003)。
-
文摘
针对传统聚类算法在对缺失样本进行数据填充过程中存在样本相似度难度量且填充数据质量差的问题,提出一种基于潜在因子模型(LFM)在子空间上的缺失值注意力聚类算法。首先,通过LFM将原始数据空间映射到低维子空间,降低样本的稀疏程度;其次,通过分解原空间得到的特征矩阵构建不同特征间的注意力权重图,优化子空间样本间的相似度计算方式,使样本相似度的计算更准确、泛化性更好;最后,为了降低样本相似度计算过程中过高的时间复杂度,设计一种多指针的注意力权重图进行优化。在4个按比例随机缺失的数据集上进行实验。在Hand-digits数据集上,相较于面向高维特征缺失数据的K近邻插补子空间聚类(KISC)算法,在数据缺失比例为10%的情况下,所提算法的聚类准确度(ACC)提高了2.33个百分点,归一化互信息(NMI)提高了2.77个百分点,在数据缺失比例为20%的情况下,所提算法的ACC提高了0.39个百分点,NMI提高了1.33个百分点,验证了所提算法的有效性。
-
关键词
潜在因子模型
缺失值
注意力机制
聚类算法
子空间
-
Keywords
Latent Factor Model(LFM)
missing value
attention mechanism
clustering algorithm
subspace
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-