期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于DNA微阵列数据的癌症分类问题研究进展 被引量:20
1
作者 于化龙 顾国昌 +2 位作者 赵靖 刘海波 沈晶 《计算机科学》 CSCD 北大核心 2010年第10期16-22,32,共8页
应用DNA微阵列数据对癌症进行诊断与分型,已经逐渐成为生物信息学领域的研究热点之一。首先概述了基于微阵列数据的癌症分类问题的研究现状与发展趋势。然后简要介绍了微阵列实验的基本步骤,微阵列数据的结构、特点以及用于癌症分类的... 应用DNA微阵列数据对癌症进行诊断与分型,已经逐渐成为生物信息学领域的研究热点之一。首先概述了基于微阵列数据的癌症分类问题的研究现状与发展趋势。然后简要介绍了微阵列实验的基本步骤,微阵列数据的结构、特点以及用于癌症分类的基本流程。接下来重点从数据预处理、特征基因选择、分类器设计以及分类性能评价等几方面对近10年来的研究成果进行了详细的综述与比较分析。最后,对该领域目前仍然存在的问题进行了归纳并对未来可能的研究方向作出了预测与展望。 展开更多
关键词 微阵列数据 癌症分类 数据预处理 特征基因选择 分类器设计 分类性能评价
下载PDF
Identification of differential gene expression for microarray data using recursive random forest 被引量:8
2
作者 WU Xiao-yan WU Zhen-yu LI Kang 《Chinese Medical Journal》 SCIE CAS CSCD 2008年第24期2492-2496,共5页
Background The major difficulty in the research of DNA microarray data is the large number of genes compared with the relatively small number of samples as well as the complex data structure. Random forest has receive... Background The major difficulty in the research of DNA microarray data is the large number of genes compared with the relatively small number of samples as well as the complex data structure. Random forest has received much attention recently; its primary characteristic is that it can form a classification model from the data with high dimensionality. However, optimal results can not be obtained for gene selection since it is still affected by undifferentiated genes. We proposed recursive random forest analysis and applied it to gene selection. Methods Recursive random forest, which is an improvement of random forest, obtains optimal differentiated genes after step by step dropping of genes which, according to a certain algorithm, have no effects on classification. The method has the advantage of random forest and provides a gene importance scale as well. The value of the area under the curve (AUC) of the receiver operating characteristic (ROC) curve, which synthesizes the information of sensitivity and specificity, is adopted as the key standard for evaluating the performance of this method. The focus of the paper is to validate the effectiveness of gene selection using recursive random forest through the analysis of five microarray datasets; colon, prostate, leukemia, breast and skin data. Results Five microarray datasets were analyzed and better classification results have been attained using only a few genes after gene selection. The biological information of the selected genes from breast and skin data was confirmed according to the National Center for Biotechnology Information (NCBI). The results prove that the genes associated with diseases can be effectively retained by recursive random forest. Conclusions Recursive random forest can be effectively applied to microarray data analysis and gene selection. The retained genes in the optimal model provide important information for clinical diagnoses and research of the biological mechanism of diseases. 展开更多
关键词 microarray gene selection recursive random forest
原文传递
A Modified Ant Colony Optimization Algorithm for Tumor Marker Gene Selection 被引量:7
3
作者 Hualong Yu Guochang Gu Haibo Liu Jing Shen Jing Zhao 《Genomics, Proteomics & Bioinformatics》 SCIE CAS CSCD 2009年第4期200-208,共9页
Microarray data are often extremely asymmetric in dimensionality, such as thousands or even tens of thousands of genes but only a few hundreds of samples or less. Such extreme asymmetry between the dimensionality of g... Microarray data are often extremely asymmetric in dimensionality, such as thousands or even tens of thousands of genes but only a few hundreds of samples or less. Such extreme asymmetry between the dimensionality of genes and samples can lead to inaccurate diagnosis of disease in clinic. Therefore, it has been shown that selecting a small set of marker genes can lead to improved classification accuracy. In this paper, a simple modified ant colony optimization (ACO) algorithm is proposed to select tumorelated marker genes, and support vector machine (SVM) is used as classifier to evaluate the performance of the extracted gene subset. Experimental results on several benchmark tumor microarray datasets showed that the proposed approach produces better recognition with fewer marker genes than many other methods. It has been demonstrated that the modified ACO is a useful tool for selecting marker genes and mining high dimension data 展开更多
关键词 microarray data ant colony optimization marker gene selection support vector machine
原文传递
基于粒子群优化和判别熵信息的基因选择算法 被引量:7
4
作者 关健 韩飞 杨善秀 《计算机工程》 CAS CSCD 2013年第11期187-190,196,共5页
为了以较少冗余的特征基因得到较高的分类准确率,提出一种基因选择算法。通过分析基因对不同类别间的判别熵信息,剔除大量的冗余基因,以形成一个初选基因库。在初选基因库中,运用粒子群优化算法结合基因组,对不同类别间的判别熵信息和... 为了以较少冗余的特征基因得到较高的分类准确率,提出一种基因选择算法。通过分析基因对不同类别间的判别熵信息,剔除大量的冗余基因,以形成一个初选基因库。在初选基因库中,运用粒子群优化算法结合基因组,对不同类别间的判别熵信息和样本分类准确率进行最优基因子集选择。在2组基因微阵列数据上的实验结果表明,该算法不仅能够获取较少冗余的可解释基因子集,而且对最终选择出的特征基因也能获得较高的样本识别率。 展开更多
关键词 粒子群优化 判别熵 微阵列数据 基因选择 极端学习机 先验信息
下载PDF
Comparative Gene Expression Analysis of Mouse and Human Cardiac Maturation 被引量:3
5
作者 Hideki Uosaki Y-h Taguchi 《Genomics, Proteomics & Bioinformatics》 SCIE CAS CSCD 2016年第4期207-215,共9页
Understanding how human cardiomyocytes mature is crucial to realizing stem cell-based heart regeneration, modeling adult heart diseases, and facilitating drug discovery. However, it is not feasible to analyze human sa... Understanding how human cardiomyocytes mature is crucial to realizing stem cell-based heart regeneration, modeling adult heart diseases, and facilitating drug discovery. However, it is not feasible to analyze human samples for maturation due to inaccessibility to samples while cardiomyocytes mature during fetal development and childhood, as well as difficulty in avoiding variations among individuals. Using model animals such as mice can be a useful strategy; nonetheless, it is not well-understood whether and to what degree gene expression profiles during maturation are shared between humans and mice. Therefore, we performed a comparative gene expression analysis of mice and human samples. First, we examined two distinct mice microarray platforms for shared gene expression profiles, aiming to increase reliability of the analysis. We identified a set of genes displaying progressive changes during maturation based on principal component analysis. Second, we demonstrated that the genes identified had a differential expression pattern between adult and earlier stages (e.g., fetus) common in mice and humans. Our findings provide a foundation for further genetic studies of cardiomyocyte maturation. 展开更多
关键词 Cardiac maturation Comparative gene expressionanalysis microarray meta analysis Principal component analysis Feature selection
原文传递
A Survey on Acute Leukemia Expression Data Classification Using Ensembles
6
作者 Abdel Nasser H.Zaied Ehab Rushdy Mona Gamal 《Computer Systems Science & Engineering》 SCIE EI 2023年第11期1349-1364,共16页
Acute leukemia is an aggressive disease that has high mortality rates worldwide.The error rate can be as high as 40%when classifying acute leukemia into its subtypes.So,there is an urgent need to support hematologists... Acute leukemia is an aggressive disease that has high mortality rates worldwide.The error rate can be as high as 40%when classifying acute leukemia into its subtypes.So,there is an urgent need to support hematologists during the classification process.More than two decades ago,researchers used microarray gene expression data to classify cancer and adopted acute leukemia as a test case.The high classification accuracy they achieved confirmed that it is possible to classify cancer subtypes using microarray gene expression data.Ensemble machine learning is an effective method that combines individual classifiers to classify new samples.Ensemble classifiers are recognized as powerful algorithms with numerous advantages over traditional classifiers.Over the past few decades,researchers have focused a great deal of attention on ensemble classifiers in a wide variety of fields,including but not limited to disease diagnosis,finance,bioinformatics,healthcare,manufacturing,and geography.This paper reviews the recent ensemble classifier approaches utilized for acute leukemia gene expression data classification.Moreover,a framework for classifying acute leukemia gene expression data is proposed.The pairwise correlation gene selection method and the Rotation Forest of Bayesian Networks are both used in this framework.Experimental outcomes show that the classification accuracy achieved by the acute leukemia ensemble classifiers constructed according to the suggested framework is good compared to the classification accuracy achieved in other studies. 展开更多
关键词 LEUKEMIA CLASSIFICATION ENSEMBLE rotation forest pairwise correlation bayesian networks gene expression data microarray gene selection
下载PDF
基因选择的快速Fisher优化模型 被引量:2
7
作者 封举富 时建新 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第1期122-128,共7页
基因选择是基因芯片数据分析中的一个重要问题。基因选择的主要困难在于基因数远远大于实验样本数。在Fisher优化模型的基础上 ,提出了快速Fisher优化模型 ,从而使得算法的计算规模主要依赖于样本数而不是特征数 ,大大提高了计算速度。... 基因选择是基因芯片数据分析中的一个重要问题。基因选择的主要困难在于基因数远远大于实验样本数。在Fisher优化模型的基础上 ,提出了快速Fisher优化模型 ,从而使得算法的计算规模主要依赖于样本数而不是特征数 ,大大提高了计算速度。在公共数据中的实验表明该方法速度快 ,选择的基因对分类结果是有效的。 展开更多
关键词 基因芯片 基因选择 特征选择 Fisher优化模型
下载PDF
Biomarker Identification of Rat Liver Regeneration via Adaptive Logistic Regression 被引量:2
8
作者 Liu-Yuan Chen Jie Yang +3 位作者 Guo-Guo Xu Yun-Qing Liu Jun-Tao Li Cun-Shuan Xu 《International Journal of Automation and computing》 EI CSCD 2016年第2期191-198,共8页
This paper is devoted to identifying the biomarkers of rat liver regeneration via the adaptive logistic regression. By combining the adaptive elastic net penalty with the logistic regression loss, the adaptive logisti... This paper is devoted to identifying the biomarkers of rat liver regeneration via the adaptive logistic regression. By combining the adaptive elastic net penalty with the logistic regression loss, the adaptive logistic regression is proposed to adaptively identify the important genes in groups. Furthermore, by improving the pathwise coordinate descent algorithm, a fast solving algorithm is developed for computing the regularized paths of the adaptive logistic regression. The results from the experiments performed on the microarray data of rat liver regeneration are provided to illustrate the effectiveness of the proposed method and verify the biological rationality of the selected biomarkers. 展开更多
关键词 Adaptive logistic regression gene selection microarray classification grouping effect rat liver regeneration
原文传递
A DSRPCL-SVM Approach to Informative Gene Analysis 被引量:1
9
作者 Wei Xiong Zhibin Cai Jinwen Ma 《Genomics, Proteomics & Bioinformatics》 SCIE CAS CSCD 2008年第2期83-90,共8页
Microarray data based tumor diagnosis is a very interesting topic in bioinformatics. One of the key problems is the discovery and analysis of informative genes of a tumor. Although there are many elaborate approaches ... Microarray data based tumor diagnosis is a very interesting topic in bioinformatics. One of the key problems is the discovery and analysis of informative genes of a tumor. Although there are many elaborate approaches to this problem, it is still difficult to select a reasonable set of informative genes for tumor diagnosis only with microarray data. In this paper, we classify the genes expressed through microarray data into a number of clusters via the distance sensitive rival penalized competitive learning (DSRPCL) algorithm and then detect the informative gene cluster or set with the help of support vector machine (SVM). Moreover, the critical or powerful informative genes can be found through further classifications and detections on the obtained informative gene clusters. It is well demonstrated by experiments on the colon, leukemia, and breast cancer datasets that our proposed DSRPCL-SVM approach leads to a reasonable selection of informative genes for tumor diagnosis. 展开更多
关键词 microarray data informative gene selection clustering analysis DSRPCL tumordiagnosis
原文传递
一种基于Gene Ontology注释信息的基因选择算法 被引量:3
10
作者 马宁 张正国 《中国生物医学工程学报》 CAS CSCD 北大核心 2009年第5期696-700,706,共6页
基因选择算法是辅助生物学分析最重要的方法之一,但这类统计学算法受样本量相对基因数目过少的困扰。提出一种结合Gene Ontology(GO)注释信息的基因选择算法,用GO注释接近基因的方差的加权平均进行修正,增强小样本量下对总体的估计,进... 基因选择算法是辅助生物学分析最重要的方法之一,但这类统计学算法受样本量相对基因数目过少的困扰。提出一种结合Gene Ontology(GO)注释信息的基因选择算法,用GO注释接近基因的方差的加权平均进行修正,增强小样本量下对总体的估计,进而寻找差异表达基因。将该算法与其他5种常见算法对比,以选择出的基因为特征构建分类器,以分类器的可靠性作为衡量算法的标准。3组芯片实验的结果表明,该算法在小样本情况下具有一定优势。亦有Pubmed文献证明,该算法可以鉴别出其他算法未曾发现的致病基因。该方法所建立起来的框架,是把生物学注释信息引入算法改进的一种有效尝试。 展开更多
关键词 基因芯片 基因选择 T检验 置换检验 GO
下载PDF
一种基于非线性降维和Procrustes分析的基因选取方法 被引量:3
11
作者 杨广源 付旭平 +1 位作者 黄燕 李瑶 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2009年第3期338-347,共10页
提出了一种新的基于非线性降维算法和统计形状比较的基因选取方法.该方法基于保持芯片数据结构的思想,消除了对于样本类信息的要求.在3组实际肿瘤芯片数据上的应用表明,新方法在维持数据结构和数据挖掘分析中都明显优于基于线性降维的... 提出了一种新的基于非线性降维算法和统计形状比较的基因选取方法.该方法基于保持芯片数据结构的思想,消除了对于样本类信息的要求.在3组实际肿瘤芯片数据上的应用表明,新方法在维持数据结构和数据挖掘分析中都明显优于基于线性降维的选取方法.与其他成熟的基因选取方法在分类分析中的比较也证明了新方法的成功. 展开更多
关键词 基因芯片 基因选取 非线性降维 Procrustes分析 ISOMAP
原文传递
基因表达数据中加权SAM法的基因选择和分类预测研究 被引量:2
12
作者 任雨冬 陆震 +1 位作者 李婧惟 刘艳 《实用预防医学》 CAS 2020年第12期1537-1540,共4页
目的使用高斯核函数和欧式距离函数改进微阵列显著分析法(significance analysis of microarray,SAM)得到MSAM1法(modified significance analysis of microarray-1,MSAM1)和MSAM2法(modified significance analysis of microarray-2,MS... 目的使用高斯核函数和欧式距离函数改进微阵列显著分析法(significance analysis of microarray,SAM)得到MSAM1法(modified significance analysis of microarray-1,MSAM1)和MSAM2法(modified significance analysis of microarray-2,MSAM2),与SAM法、Relief法、支持向量机递归特征消除法(support vector machine recursive feature elimination, SVM-RFE)进行对比,评价在基因表达数据中MSAM1法、MSAM2法的基因选择和分类预测能力。方法从Bioconductor中的golubEsets包获得leukemia数据集(Golub等人给出了该数据集所包含的50个差异基因),运用R软件实现5种算法,分别用正确率和ROC曲线下面积即AUC值评价基因选择能力和分类预测能力,用Kruskal-Wallis H检验比较5种方法的正确率和AUC值的组间差异,进一步的两两比较采用SNK-q检验。结果正确率和AUC值均表现为MSAM1和MSAM2最优,SAM和SVM-RFE法次之,Relief法排在最后;5种方法的组间差异有统计学意义(H=150.333,P<0.0001和H=293.2579,P<0.0001),两两比较结果显示虽然MSAM1和MSAM2之间差异无统计学意义(P>0.05),但两种方法与其他3种方法之间差异均有统计学意义(P<0.05)。结论用高斯核函数和欧式距离函数改进的加权SAM法提高了SAM法的基因选择和分类预测能力,在实际基因表达数据的应用中可以得到更为稳定的分析结果。 展开更多
关键词 SAM 基因表达数据 基因选择 分类预测
原文传递
Gene Selection for Classifications Using Multiple PCA with Sparsity
13
作者 Yanwei Huang Liqing Zhang 《Tsinghua Science and Technology》 SCIE EI CAS 2012年第6期659-665,共7页
A gene selection algorithm was developed using Multiple Principal Component Analysis with Sparsity (MSPCA). The MSPCA algorithm is used to analyze normal and disease gene expression samples and to set these componen... A gene selection algorithm was developed using Multiple Principal Component Analysis with Sparsity (MSPCA). The MSPCA algorithm is used to analyze normal and disease gene expression samples and to set these component Ioadings to zero if they are smaller than a threshold for sparse solutions. Next, genes with zero Ioadings across all samples (both normal and disease) are removed before extracting feature genes. Feature genes are genes that contribute differentially to variations in normal and disease samples and, thus, can be used for classification. The MSPCA is applied to three microarray datasets to select feature genes with a linear support vector machine to evaluate its performance. This method is compared with several previous gene selection results to show that this MSPCA gene selection algorithm has good classification accuracy and model stability. 展开更多
关键词 microarray gene expression gene selection Multiple Principal Component Analysis with Sparsity (MSPCA) sparse
原文传递
核多元基因选择和极限学习机在微阵列分析中的应用 被引量:2
14
作者 杨勤 董洪伟 薛燕娜 《传感器与微系统》 CSCD 2016年第5期146-148,153,共4页
针对微阵列数据样本量少、维度高的特点,结合当前数据降维方法中没有考虑特征与特征之间相关性的缺点,提出一种核最小二乘的特征基因选择方法。将解释变量空间通过非线性映射转换到高维空间上,再在高维空间上进行最小二乘回归,并采用极... 针对微阵列数据样本量少、维度高的特点,结合当前数据降维方法中没有考虑特征与特征之间相关性的缺点,提出一种核最小二乘的特征基因选择方法。将解释变量空间通过非线性映射转换到高维空间上,再在高维空间上进行最小二乘回归,并采用极限学习机进行训练和预测。结果表明:对三种经典数据集的分类精度分别达到90.47%,88.89%,88.23%,高于传统的机器学习算法,充分表明本方法的优越性。 展开更多
关键词 微阵列分类 基因选择 核最小二乘 极限学习机
下载PDF
基于边缘分布模型的基因选择方法 被引量:1
15
作者 段旭 《计算机工程与设计》 CSCD 北大核心 2011年第11期3836-3839,共4页
一个微阵列数据集包含了成千上万的基因、相对少量的样本,而在这成千上万的基因中,只有一少部分基因对肿瘤分类是有贡献的,因此,对于肿瘤分类来说,最重要的一个问题就是识别选择出对肿瘤分类最有贡献的基因。为了能有效地进行微阵列基... 一个微阵列数据集包含了成千上万的基因、相对少量的样本,而在这成千上万的基因中,只有一少部分基因对肿瘤分类是有贡献的,因此,对于肿瘤分类来说,最重要的一个问题就是识别选择出对肿瘤分类最有贡献的基因。为了能有效地进行微阵列基因选择,提出用一个边缘分布模型(marginal distribution model,MDM)来描述微阵列数据。该模型不仅能区分基因是否在两样本中差异表达,而且能区分出基因在哪一类样本中表达,从而选择出的基因更具有生物学意义。模拟数据及真实微阵列数据集上的实验结果表明,该方法能有效地进行微阵列基因选择。 展开更多
关键词 基因微阵列 基因选择 边缘分布模型 差异表达基因 EM算法
下载PDF
基于主元分析与近邻距离的特征基因选择与去噪 被引量:1
16
作者 吕江婷 陈少斌 黄宴委 《福州大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第1期49-52,共4页
针对高维小样本大噪声的基因芯片数据,提出一种基于主元分析与k-近邻距离的特征基因选择与去噪方法.首先利用主元分析法获取低维投影空间中的模式特征,依据各个基因贡献率大小排序,选择贡献率大的基因为特征基因,进而利用k-近邻距离来... 针对高维小样本大噪声的基因芯片数据,提出一种基于主元分析与k-近邻距离的特征基因选择与去噪方法.首先利用主元分析法获取低维投影空间中的模式特征,依据各个基因贡献率大小排序,选择贡献率大的基因为特征基因,进而利用k-近邻距离来消除野值噪声以获得稳定高效的分类精度.实验结果表明:提出的特征基因选择与去噪方法,使得特征基因分类精度更高、性能更稳定. 展开更多
关键词 基因表达谱 特征基因选择 主元分析 K-近邻 去噪
原文传递
基于自适应双正则化支持向量机的群体基因选择 被引量:1
17
作者 陈留院 穆晓霞 李钧涛 《郑州大学学报(理学版)》 CAS 北大核心 2014年第1期73-77,共5页
通过结合部分自适应弹性网络惩罚和hinge损失函数,提出了一种能同时进行微阵列分类和基因选择的自适应双正则化支持向量机模型,并证明了该支持向量机具有自适应群体基因选择性能.
关键词 支持向量机 微阵列分类 基因选择
下载PDF
几种差异基因分析方法及筛选效果的比较 被引量:1
18
作者 赵发林 闫晓光 李康 《中国卫生统计》 CSCD 北大核心 2008年第4期354-356,362,共4页
目的比较六种差异基因筛选方法的使用效果及适用性。方法用Monte-Carlo方法产生不同类型的模拟数据,分别用不同的方法计算、评价其优劣。结果多数情况下SAM法和稳健t检验表现出了最优的筛选能力,SAM-ROC法则表现出更好的稳定性。结论几... 目的比较六种差异基因筛选方法的使用效果及适用性。方法用Monte-Carlo方法产生不同类型的模拟数据,分别用不同的方法计算、评价其优劣。结果多数情况下SAM法和稳健t检验表现出了最优的筛选能力,SAM-ROC法则表现出更好的稳定性。结论几种方法都能够有效地用于基因筛选,但各自的适应条件不同,综合看SAM法是基因筛选的首选方法,随机森林方法则具有较大的研究价值。 展开更多
关键词 微阵列数据 基因筛选 Monte—Carlo模拟
下载PDF
基于置换检验的两步基因特征选择算法
19
作者 王国胤 罗川江 《重庆邮电大学学报(自然科学版)》 北大核心 2012年第4期483-489,共7页
针对目前大规模基因数据集中存在大量的噪声和冗余基因这一问题,提出了一种基于置换检验的两步基因特征选择算法。该算法首先采用方差分析过滤噪声基因,然后采用相关系数过滤冗余基因,最后结合置换检验的方法,可以高效、自主地处理大规... 针对目前大规模基因数据集中存在大量的噪声和冗余基因这一问题,提出了一种基于置换检验的两步基因特征选择算法。该算法首先采用方差分析过滤噪声基因,然后采用相关系数过滤冗余基因,最后结合置换检验的方法,可以高效、自主地处理大规模基因数据集。采用PAM(prediction analysis for microarrays)分类器,在RSCTC2010 Discovery Challenge提供的12个竞赛数据集作基因特征选择与分类实验,实验结果表明,提出的算法能够选择高分辨、低冗余的基因子集,与目前其他基因特征选择算法相比,可以提高分类器性能。 展开更多
关键词 基因微阵列 基因特征选择 置换检验
原文传递
基于惩罚高斯混合模型的微阵列基因表达数据分析
20
作者 石玉 《中山大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第3期1-7,共7页
随着现代生物技术的发展,基于基因表达数据的肿瘤分型诊断已成为DNA微阵列的重要应用领域。提出一种基于基因表达数据的肿瘤分型诊断新方法,并在理论上给出模型解释。该方法通过对高斯混合模型加上一个L1惩罚实现了肿瘤分类和信息基因... 随着现代生物技术的发展,基于基因表达数据的肿瘤分型诊断已成为DNA微阵列的重要应用领域。提出一种基于基因表达数据的肿瘤分型诊断新方法,并在理论上给出模型解释。该方法通过对高斯混合模型加上一个L1惩罚实现了肿瘤分类和信息基因选择的有机结合,从而用较少的变量达到更高的识别率。实验结果显示,无论是在模拟数据中还是五个微阵列数据集中,提出的方法都是高效稳定的。 展开更多
关键词 微阵列数据 肿瘤诊断 基因选择 混合高斯模型 L1惩罚
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部