周小青
(湖南师范大学生命科学学院 410081) 摘要
全基因组关联分析(Genome-wide association study,GWAS)是
应用人类基因组中数以百万计的单核苷酸多态性(single nucleotide ploymorphism,SNP)为标记进行病例对照分析,以期发现影响复杂性疾病发生的遗传特征的一种新策略。近年来,随着人类基因组计划的实施以及基因芯片技术的发展,人们已通过GWAS方法发现并鉴定了大量与人类复杂性疾病关联的遗传变异,为进一步了解控制人类复杂性疾病的遗传特征提供了重要的线索。本文介绍了近几年年来全基因组关联研究在复杂疾病研究领域内的主要发现、全基因组关联研究设计原理,总结了人类全基因组关联研究所取得成就和存在的问题,并对全基因组关联研究未来的研究重点和要解决的问题进行了展望。 关键词 全基因组关联分析 单核苷酸多态性 复杂疾病 Abstract Genomewide association study (GWAS) is a novel strategy for discovering genetic basis of human complex diseases , through using millions of single nucleotide polymorphism(SNPs) as marks to conduct case-control association studies. In recent years ,following the implementation of Human Genome Project and development of Genome Chips, large number of human complex diseases associated genetic variants has been identified through GWAS method,which provides important clues
for understanding the mechanisms of related diseases. The present paper reviewed some common comments in whole genome association study on complex diseases, including achievements of genome-wide asso-ciation studies on complex traits or diseases, the method of GWAS,and the achievements of GWAS study.
Key words Genome-wide association study(GWAS) single nucleotide
polymorphism(SNPs) complex diseases
人类基因组精细图的公布,标志着现代医学的发展已逐步进入基因组医学时代。人类功能基因组学研究就是以全基因组为背景,开展人类基因及其编码蛋白的功能研究,从而尽可能全面地揭示生命的奥秘。目前,基因组医学对疾病诊断、恶性肿瘤、器官移植、精神疾病、心血管疾病、制药、医学伦理以及基因治疗等方面的重要影响已初见端倪,人类基因组为药物开发提供了新源泉。
遗传因素, 或其与环境因素之间的相互作用参与了几乎所有的人类疾病的发生过程。根据导致疾病的基因数量 ,传统上将有遗传因素参与的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由于单个基因的突变导致的疾病。近 20年来 ,通过家系连锁分析的定位克隆方法 ,研究者已发现了大量如囊性纤维化、亨廷顿病等单基因疾病的致病基因 ,这些基因的突变多改变了相应的编码蛋白氨基酸序列或者产量 ,从而产生符合孟德尔遗传方式的疾病表型疾病 ,连锁分析的作用非常有限。
复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。很
[1]
。但对于复杂性
久以来 ,人们已认识到大部分人类性状和复杂性疾病的产生受到多个基因和环境因素的影响 ,但是发现并鉴定这些影响“复杂性疾病 ”的遗传变异却困难重重。近年 ,随着人类基因组计划和基因组单倍体图谱计划的实施 ,研究者开始对影响人类性状形成和复杂性疾病产生的遗传特征进行了探索。短短几年内 ,已经发现并鉴定了大量与人类性状或复杂性疾病关联的遗传变异 (下图) ,为进一步了解控制人类复杂性疾病发生的遗传特征提供了重要线索
[2]
。
截至 2009年 6月, 439项 G WAS发现的与人类性状或复杂性疾病关联 SNP
位点,不同灰度圆点代表不同性状或疾病
人类基因组计划完成后,国际上人类基因组的研究已经进入新阶段,一种新型技术——全基因组关联分析技术的重大革新及其推广应用,极大地推动了基因组医学的发展。
全基因组关联分析(Genome-wide association study,GWAS) 是一种对全基因组范围内的常见遗传变异: 单核苷酸多态性(Singlenucleotide polymorphism , SNP) 进行总体关联分析的方法, 即在全基因组范围内选择遗传变异进行基因分型, 比较病例和对照间每个变异频率的异差, 计算变异与疾病的关联强度, 选出最相关的变异进行验证并最终确认与疾病相关
[3]
。
2005年Science杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果,引起医学界和遗传界极大地轰动,此后一系列GWAS研究陆续展开
[8]
。2006年,波士顿大学医学院联合哈佛大学等
[13]
多个研究单位报道了关于肥胖的GWAS研究结果;2007年,Sa
xena等多个研究机构联合报道了Ⅱ型糖尿病关联的多个位点,Samani等则发表了冠心病关联基因
[5]
;2008年,Barrett等通过G
WAS发现了30多个与克罗恩病相关的易感基因位点,;2009年,Weiss等运用GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。我国学者则通过对12000多名汉族系统性红斑狼疮患者以及健康对照者的GWAS发现了5个红斑狼疮易感基因,并确定了4个新的易感位点。截至2010年4月,已陆续报道了关于人类身高、体重、血压等主要性状,以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的GWAS结果,累计发表了近万篇论文,确定了一系列疾病发病的致病基因、相关基因、易感区域和SNP变异
[19]
。
GWAS采用的研究方式与传统的候选基因病例对照关联分析一致,即如果人群基因组中一些SNP与某种疾病相关联,理论上这些疾病相关SNP等位基因频率在某种疾病患者中应该高于未患病对照人群
[6]
。目前GWAS分为单阶段和两阶段或多阶段设计。
单基因阶段是选择足够的病例和对照样本,一次性在所有研究对象中对选中的SNP进行基因分型,然后分析每个SNP与疾病的关联,分别计算关联强度,在早期GWAS主要采取此类方法。目前GWAS研究主要采用两阶段或多阶段研究:在第一阶段用覆盖全基因组范围的SNP进行病例对照分析,统计分析后筛选出较少数量的阳性SNP进行第二阶段或随后的多阶段中采用更大样本的病例对照样本群进行基因分型,然后结合两阶段或多阶段的结果进行分析。这种设计需要保证第一阶段筛选与疾病相关的SNP的敏感性和特异性,尽量减少分析的假阳性与假阴性的发生,并在第二阶段应用大量样本人群,甚至在多种人群中进行基因分型验证。如下图;
GWAS流程示意图
虽然 GWAS结果在很大程度上增加了人们对人类疾病分子遗传机制的理解 ,但也显现出很大的局限性。首先 ,通过统计分析遗传因素和性状 /复杂性疾病的关系 ,确定与特定性状 /复杂性疾病关联的功能性位点存在一定难度。通过 GWAS发现的许多 SNP位点并不影响蛋白质中氨基酸 ,甚至许多SNP位点不在蛋白编码开放阅读框 ( open reading frame,ORF)内,这为解释 SNP位点与性状 /复杂性疾病产生之间的关系造成了一定的困难。但是 ,由于性状 /复杂性疾病很大程度上是由数量性状决定 ,SNP位点可能通过影响基因表达量对这些数量性状产生轻微的作用 (如胰岛素基因启动子中的遗传变异增加 1型糖尿病风险 ),它们在 RNA的转录或翻译效率上发挥作用 ,可能在基因表达上产生短暂的或依赖时空的多种影响 ,刺激调节基因的转录表达或影响其 RNA剪接方式
[10]
。因此 ,研究者在找寻
疾病相关变异时 ,应同时注意到编码区和调控区位点变异的重要性。
其次 ,等位基因结构 (数量、类型、作用大小和易感性变异频率 )在不同性状 /疾病中可能具有不同特征。例如年龄依赖性黄斑变性 ,大部分这种常见疾病即由少数几个具有较大效应 (的常见遗传变异所致 ,而其它许多疾病如克罗恩病 ,虽然已发现多个遗传变异与该病相关 ,但是只有部分该病病例可用这些遗传变异进行解释(下图);又如 ,目前通过纳入上万人的 G WAS已发现至少有 40个 SNP位点与人类身高 (遗传度约为 80% )关联 ,但这些 SNP位点仅解释了约 5%的身高表型变异
[17]
。因此 ,大部分常见遗传变异可能通过单独或
联合作用轻度增加疾病发生风险,而这些变异仅可解释部分人群中因遗传引起的表型变异。
随着现代遗传学、 基因组学和医学研究的不断深入 ,我们对基
因的认识也日趋深化。人类基因组计划初步完成后 , GWAS为研究人类性状 /复杂性疾病揭开了新的序幕。短短数年 ,通过 GWAS已经发现许多以前未知的与性状或疾病相关的位点和染色体区域 ,为了解人类复杂性疾病的分子发病机制提供了更多的线索。然而与最初的期望差距甚远的是 ,目前的 GWAS结果显得庞杂无序:一些 SNP仅与疾病危险因子或诱发因子有关而非直接与疾病关联;很多常见 SNP对阐明大多数性状或疾病遗传特征的作用似乎微乎其微;几乎所有已发现的 SNP仅轻度增加疾病风险 ,大多数疾病的遗传关联仍然难以解释;而应用 GWAS结果进行疾病的早期预测和个体化的治疗更非想象的那样简单
[13]
。但是,事物发展总是前进性和曲折性的统一 ,虽然目前
GWAS结果的临床意义很有限 ,但是这些研究仍然应该继续进行 ,而且应该避免急功近利 ,回归理性、实事求是地进行更长远的科学分析和研究。
尽管研究人员已经揭开了人类基因组中的部分秘密,但还有很多问题等着他们去研究。在发现与疾病相关的遗传变异方面,GWAS取得了不错的成绩,不过今后的研究历程会更加艰难。研究人员使用GWA获得了一些成果,同时也对GWA有了更深入的认识。但是,使用GWA可能不再那么容易获得结果了。更先进的新一代测序技术也削弱了GWA技术的优势地位。尽管借助GWA分析获得了很多结果,但人们逐渐发现,这些结果越来越难以解释遗传性疾病的特点了。
不过,如果要就此快速做出结论,全盘否定GWA的试验结果也是不对的。随着人们对表型-基因型因果关系研究的深入,毫无疑问会
对遗传现象了解得越来越多,越来越清楚。如果不考虑这些遗传位点在预测患病风险上的问题的话,就帮助人们更好地认识疾病的病因学、预测药物靶点等方面来说,还是有很大用处的
[11]
。同样,如果
认为有了基因组完整的测序数据,就不需要对GWA研究进行改进了,这种想法也是非常天真的。比如,在GWA研究后要确定一个基因型-表型因果关系就很困难,因为由于连锁不平衡的原因,相邻的SNP之间会有连锁现象发生。同样,在测序时同样存在连锁不平衡现象。而且即使测序的费用降到非常低的水平,要想如GWA研究一样,获得大量样本的基因组数据,至少在几年之内是不太可能实现的。在改善人类健康状况的征途上,GWAS还有很长、很艰巨的路要走,但这是非常值得走下去的。
主要参考文献
[1] 严卫丽. 复杂疾病全基因组关联研究进展——遗传统计分析. 遗传, 2008.
[2] 顾东风. 常见复杂性疾病的遗传学和遗传流行病学研究:挑战和对策. 中国医学科学院学报, 2006.
[3] 黄文涛,戴甲培,陈润生. 复杂疾病全基因组关联研究:进展,问题和未来. 中南民族大学学报(自然科学版), 2009. .
[4] 李婧,潘玉春,李亦学,石铁流. 人类基因组单核苷酸多态性和单体型的分析及应用[J]. 遗传学报, 2005.
[5] 吴学森. 基于全基因组关联分析的基因(环境)交互作用统计学方法进展. 蚌埠医学院学报, 2008.
[6] 严卫丽. 基因组关联研究进展——研究设计和遗传标记. 遗传, 2008. [7] 严卫丽. 单体型分析:复杂疾病基因定位的新希望. 新疆医科大学学报, 2006. [8] 张学军. 复杂疾病的遗传学研究策略. 安徽医科大学学报, 2007.. [9] 严卫丽,顾东风. 复杂疾病关联研究中的若干问题. 遗传学报, 2004.
[10] 傅咏南,王校. 全基因组关联分析对相关研究与产业的推动作用. 中国优生优育, 2008. [11] 吴学森. 基于全基因组关联分析的基因(环境)交互作统计学方法进展. 蚌埠医学院学报, 2008.
[12] 许力, 王升启. 药物基因组学的发展及其在个体化用药中的应用. 国外医学药学分册, 2006.
[13] 石娟 洪洁 肥胖症全基因组关联分析研究进展 国际内科学杂志 2009.
[14] 郑厚峰 杨森 张学军 复杂疾病的全基因组关联分析研究新进展 . 遗传 2009
[15] 杨英, 鲁向锋 冠心病全基因组关联研究进展遗传. 2010.
[16] 孙玉琳, 刘飞 拷贝数变异的全基因组关联分析. 生物化学与生物物理进展 2009. [17] 凃欣, 石立松, 汪樊 ,王擎 全基因组关联分析的进展与反思. 生理科学进展 2010. [18] 傅咏南 ,王校 全基因组关联分析对相关研究与产业的推动作用. 中国优生优育. 2008.
[19] 张学军 全基因组关联分析对银屑病遗传学研究的启示. 浙江大学学报 2009. [20] 张学军 新型基因组分析方法发现银屑病新的易感基因 LCE. 中国基础科学. 2010. [21] 郝峻烽; 魏玉保; 陈蕊雯 类风湿关节炎易感基因的全基因组关联分析研究进展 第二军医大学学报 2009.
[22] 李彪; 陈润生 复杂疾病关联分析进展 中国医学科学院学报 2006
[23] 张江鹄 散发性肌萎缩侧索硬化基因突变与多态性研究 中国协和医科大学 2008. [24] A haplotype map of the human genome. Nature 2005.
[25] Genome-wide association study of 14,000 cases of sevencommon diseases and 3,000 shared controls. Nature 2007.
因篇幅问题不能全部显示,请点此查看更多更全内容