摘要
高通量的单核苷酸多态(single nucleotide polym orphism,SNP)检测技术与已有的知识体系(如KEGG,GO数据库等)为与疾病相关的SNP单体型及相关基因挖掘提供了有力支撑.本研究对高通量SNP基因型数据,采用4种SNP单体型板块(block)识别方法(置信区间、FGT、连锁不平衡的稳定连接以及单体型板块融合技术),用聚类分析方法验证其效能,通过风险分析方法确定酒精中毒相关的SNP单体型,并基于已有知识体系建立SNP单体型与基因的映射,通过查询NCBI SNP与gene数据库定位SNP单体型板块,确定候选基因,最后结合KEGG,Biocarta及GO数据库进行基因功能注释.在对人类22对常染色体的分析中,寻找到可能与酒精中毒相关的159个单体型板块,包含227个SNP单体型,并预测其中102个SNP单体型可能会增加酒精中毒的发病风险.挖掘得到了121个酒精中毒相关基因,并进一步进行可靠的生物学功能注释验证.结果提示:采用聚类效果验证及风险分析的单体型识别机制,基于单体型的疾病相关基因定位并结合已有知识体系的疾病相关基因挖掘策略,不仅能大大缩减SNP数据挖掘的工作量,实现复杂疾病相关基因的精细定位,而且对于多因素复杂疾病发病机制的探索将更有指导意义.
出处
《中国科学(C辑)》
CSCD
北大核心
2008年第10期938-948,共11页
Science in China(Series C)
基金
国家自然科学基金(批准号:30570424,60601010和30600367)
国家高技术研究发展计划(批准号:2007AA02Z329)
黑龙江科技攻关(批准号:GB03C602-4)
黑龙江自然科学基金(批准号:F2004-02)
哈尔滨医科大学青年科学基金(批准号:060045)
黑龙江省教育厅科学基金(批准号:11531113和1152hq28)资助项目