[目的]本研究将FASTmrEMMA、最小角回归(least angle regression,LARS)和随机森林(random forest,RF)方法应用于全基因组选择,以提高植物数量性状预测的准确性和效率,为植物遗传和育种提供有益信息。[方法]对拟南芥自然群体的模拟数据...[目的]本研究将FASTmrEMMA、最小角回归(least angle regression,LARS)和随机森林(random forest,RF)方法应用于全基因组选择,以提高植物数量性状预测的准确性和效率,为植物遗传和育种提供有益信息。[方法]对拟南芥自然群体的模拟数据和真实数据进行全基因组预测。在模拟数据分析中,设置不同的表型缺失率,以平均绝对误差(mean absolute error,MAE)、均方误差(mean squared error,MSE)、预测模型拟合度和计算时间为指标,比较基于最小角回归和随机森林的两阶段算法(two-stage algorithm based on least angle regression and random forest,TSLRF)、基于随机森林的两阶段变量选择(two-stage stepwise variable selection based on random forest,TSRF)、随机森林和全基因组最佳线性无偏预测(genomic best linear unbiased prediction,GBLUP)4种方法的优劣。在拟南芥真实数据研究中,针对长日照花期(days to flowering under long day,LD)、春化长日照花期(days to flowering under long day with vernalization,LDV)和短日照花期(days to flowering under short day,SD)实施全基因组预测,并利用这些表型预测值与观测值进行全基因组关联分析,以比较上述4种全基因组选择方法的性能。[结果]模拟研究表明:在不同表型缺失率下,TSLRF的全基因组预测准确度和预测模型拟合度均较高;真实数据的TSLRF分析也获得相似的结论,且检测到40个已报道与目标性状显著关联的基因。[结论]TSLRF方法的全基因组预测准确度和模型拟合度较高,计算速度快,为分子育种和优异亲本组合的预测提供理论依据。展开更多
文摘[目的]本研究将FASTmrEMMA、最小角回归(least angle regression,LARS)和随机森林(random forest,RF)方法应用于全基因组选择,以提高植物数量性状预测的准确性和效率,为植物遗传和育种提供有益信息。[方法]对拟南芥自然群体的模拟数据和真实数据进行全基因组预测。在模拟数据分析中,设置不同的表型缺失率,以平均绝对误差(mean absolute error,MAE)、均方误差(mean squared error,MSE)、预测模型拟合度和计算时间为指标,比较基于最小角回归和随机森林的两阶段算法(two-stage algorithm based on least angle regression and random forest,TSLRF)、基于随机森林的两阶段变量选择(two-stage stepwise variable selection based on random forest,TSRF)、随机森林和全基因组最佳线性无偏预测(genomic best linear unbiased prediction,GBLUP)4种方法的优劣。在拟南芥真实数据研究中,针对长日照花期(days to flowering under long day,LD)、春化长日照花期(days to flowering under long day with vernalization,LDV)和短日照花期(days to flowering under short day,SD)实施全基因组预测,并利用这些表型预测值与观测值进行全基因组关联分析,以比较上述4种全基因组选择方法的性能。[结果]模拟研究表明:在不同表型缺失率下,TSLRF的全基因组预测准确度和预测模型拟合度均较高;真实数据的TSLRF分析也获得相似的结论,且检测到40个已报道与目标性状显著关联的基因。[结论]TSLRF方法的全基因组预测准确度和模型拟合度较高,计算速度快,为分子育种和优异亲本组合的预测提供理论依据。