摘要
利用基因表达谱数据进行肿瘤亚型分类,对于癌症研究有着非常重要的意义。由于基因表达数据的维数很高,必须从大量基因中选取一些特征基因用于分类,才能取得好的效果。但以往方法所提取的特征基因,彼此之间存在较高的相关性。本文提出了一种基于高维向量分析的特征基因提取方法:首先利用基因与理想基因间相似度作为评价准则得到候选集,然后去除候选集中相关性强的冗余基因。用此方法选出的特征基因是与分类相关但彼此无关的,从而提高了特征基因子集的模式质量。
Gene expression profiling technology has been commonly used for cancer classification. Because of the high dimensionality of gene expression data, it is important to select feature genes out of the original data. In this paper, we proposed a new method of gene selection based on high dimensional vector analysis. First, the similarity to ideal gene is applied as a criterion to select candidate genes; then, redundant genes are removed according to their correlation.
出处
《微计算机信息》
北大核心
2008年第9期193-194,共2页
Control & Automation
基金
国家自然科学基金(NO.60474073)
关键词
基因表达
特征基因
肿瘤亚型分类
Gene Expression
Feature Gene
Cancer Classification