您的当前位置：首页正文

GWAS入门要点

来源：易榕旅网

背景：1996 年，Risch最早提出了GWAS 的设想。他认为未来人类复杂疾病的研究不再需要候选基因的预测，能够在全基因组水平检测每一个基因的变异，进行更大规模的基因检测。2001 年，Hansen等最早应用GWAS 在植物中对Sea beet（海甜菜）的生长习性进行了分析发现，决定海甜菜抽薹前是否需要进行春化处理的基因（B 基因）与分布于全基因组范围内的 440 个 AFLP 标记中的 2 个显著关联；2005 年，Science 杂志上最早报道了GWAS 应用于人类研究，Klein等发现complement factor H 基因（CFH）与具有年龄相关性的黄斑变性病症显著相关（SNP存在于CFH基因内）。

定义：全基因组关联分析（genome wide association study，GWAS）是利用全基因组范围内筛选出高密度的分子标记对所研究的群体进行扫描，分析扫描得出的分子标记数据与表型性状之间关联关系的方法。即，GWAS 就是利用全基因组范围内的 LD 来确定影响某些表型性状或数量性状的基因。

流程：典型的 GWAS 案例通常由以下四个部分组成：（1）建立研究群体，选择尽可能大的群体作研究样本，建立目标性状数据库。如果研究性状为疾病，要同时选择已感染疾病的群体和健康群体作病例-对照组合；（2）提取样本 DNA 并进行质量控制以达到基因分型的要求，对基因型数据进行检测和质量控制以达到后续关联分析的要求；（3）利用合适的统计模型对 SNP 和目标性状进行关联分析；（4）对关联分析的结果进行高级分析及验证

分类：GWAS 研究统计分析原理分为以下几种情况：

（1）基于无关个体(Unrelated individual)的关联分析：基于此法设计的关联分析包括病例-对照分析法（Case-control analysis）和基于随机群体的关联分析（Population-based association analysis）。前者主要检测病例组和对照组全基因组中基因型的分布特征和差异，可用4 格表的卡方检验来比较基因频率在研究组和对照组间的差异，若两者之间存在显著性差异则可能表明该遗传差异和疾病有关联。病例-对照法常用于人类疾病易感基因的研究，主要关注质量性状。基于随机群体的分析法主要应用于动植物中，主要关注数量性状。比如在研究动物经济性状候选基因时可采用这种方法。

（2）基于家系的关联分析（Family-based association）：基于无关个体的关联分析可靠性会受到样本群体分层或其他混杂因素的影响。基于家系的关联分析可以有效提高分析的可靠性，避免群体分层对关联分析结果的影响（如果利用多个家系同样有可能产生群体分层）。当选择的样本具有完整的系谱信息时，可以采用传递不平衡检验(Transmisstion Disequilibrium Test, TDT)法对 SNP 与所关注数量性状的关联效应进行分析。

试验设计：一种是单阶段设计（One-stage design），另一种是两阶段设计（Two-stage design）或多阶段设计（Multiple-stage design）。单阶段设计中一次性选用足够大的样本量，对每一个样本都进行 SNP 基因型分型，然后分析相关性状与每个 SNP 的关联效应。而两阶段或多阶段设计中，首先选择一个小样本量进行 SNP分型，统计分析时在较为宽松的 P 值条件下先筛选出与目标性状呈显著相关的 SNPs，然后在大样本中对已经第一步筛选出的 SNPs 进行分型，结合两个阶段的分析结果进行最后统计。二者相比，单阶段设计的最大缺

陷在于基因分型耗资巨大，两阶段或多阶段设计是一种即经济又高效的研究策略。

1. 资源群体：参见定位动物QTL的作图群体

GWAS 中样本量的大小取决于期望效应的大小示例1：

示例2：本研究所用试验群体是以 4 头大白公猪与 16 头民猪母猪为 F0代交配产生 F1代个体，然后从F1代中挑选 9 头公猪和 46 头母猪在避免全同胞的前提下自交产生的 F2代群体。

示例3：本研究选用苏尼特羊、德国肉用美利奴羊（德美羊）和杜泊羊三个绵羊品种，所有的试验羊均为随机选择，无家系信息，共计 329 只，其中苏尼特羊 69 只（公 57 母 12），德美羊 161 只（公 71 母 90），杜泊羊 99 只（公49 母 50）。

2. 表型选择：遵循以下3 个原则：

（1）选择遗传力较高的表型，遗传度低的表型会降低遗传学关联研究的把握度；（2）性状优于疾病（表型），疾病（表型）的状态模糊不清，很难测量，有时则会出现多种

疾病（表型）混杂在一起而难以判断；

（3）选择测量简单准确并且遗传力相对较高的数量表型，增加分析结果的可信度 3. 标记分型：

3..1示例芯片：本研究使用的是 Illumina 公司研制 PorcineSNP60 BeadChip 全基因组芯片（如图），包含超过 60000个 SNP 位点，以步长平均每 40 kb 有一个标记，覆盖猪的基因组。此芯片整合了多种猪的基因差异，包括杜洛克猪，长白猪，皮特兰猪和大白猪，其性价比高，能提供足够的 SNP 密度，可应用于全基因组关联研究中。这张芯片可以测定12个个体GWAS.

3.2 实验流程：

（1） DNA 定量测定 DNA 浓度，并统一标化成 50 ng/μL。进行 Infinium 分析需要的

DNA样本量为500 ng~750 ng；（2）DNA 扩增产物孵育在样本中加入 0.1N NaOH 使 DNA 变性为单链，经中和后加入

全基因组扩增试剂，在 37℃恒温条件下过夜孵育，扩增后的 DNA 总量可达初始上

样量的 2000~3000倍，该过程不会产生等位基因偏向性扩增；

（3）DNA 扩增产物片段化扩增后的产物，经过可控的且不需要凝胶电泳的酶解处理，

成为片段化的 DNA。该过程利用终点式（End-point）片段化方法，以防止样本的过

度片段化；

（4）DNA 沉淀和悬浮加入异丙醇进行沉淀 DNA 片段过程，片段化的 DNA 在 4℃下离

心富集，从而得以纯化。将沉淀后的 DNA 在空气中进行干燥后，加入杂交缓冲试剂使其重新溶解；（5）准备微珠芯片；

（6）DNA 与芯片的杂交将重悬后的 DNA 样本与准备好的微珠芯片杂交，置于杂交炉

内反应过夜。在杂交过程中，片段化后的 DNA 经过变性，与位点特异的 60 个碱基

退火，而这 60 个特异碱基连接在芯片的 60000 种微珠（Bead）中的一个上，一个微珠类型对应检测一个 SNP 位点；

（7）芯片的延伸、染色洗去未杂交的和非特异杂交的 DNA，以便后续的染色和延伸。

以捕获到的 DNA 为模板，在芯片上进行单碱基的延伸反应，在芯片上加上可检测的

标签基团，从而区分样本的 SNP 类型；

（8）包被微珠芯片将反应完成的芯片放入 XC4 试剂中，使其表面包裹上一层粘性透明液

体，再将其放入真空环境下干燥 1 小时，从而将芯片包被，保护其信号稳定较长的时间；（9）芯片的扫描将处理好的芯片放入扫描仪中，利用激光激发芯片上单碱基延伸产物的

荧光基团，扫描仪获取由荧光基团发出的荧光，并生成高分辨率的图片。由此所得的数据直接导入 BeadStudio 软件进行分析，从而就得到每个样本的 SNP 分型数据。

4. 质量控制：

样本质量控制：①用Kolmogorov-Smirnov（K）方法进行数据的正态分布检验。对不符合正态分布的数据使用Minitab 15软件进行Johnson转换。②应用最大似然法的 Cervus 程序校验系谱信息和所使用 SNP 信息间的匹配情况。

基因型质量控制（Quality Control，QC）：就是对 BeadStudio 软件识别后导出的基因型，进行一些初步的整理和分析，然后再应用于后续分析，可以提高全基因组关联分析的效力。首先采用 Beadstudio 软件将芯片数据进行可视化处理，手工校正软件判型不准确的 SNP 位点后，并导出数据为文本形式。主要指标包括：①SNP call rate：指某一SNP被成功测量的样本占所有样本的百分比，一般要达到95%以上；②最小基因频率（minor allele frequency，MAF）：一般应大于1%；③Hardy-Weinberg（HWE）平衡检验，不符合的SNPs应去除；④重复样品检验结果的一致性：一致性应在99.5%以上。

5. 群体分层

在GWAS中，群体分成（population stratification）和多重假设检验（multiple testing adjusting）是引起研究结果分析误差的重要原因。一种可能的策略是采用基于家系的关联研究，该方法可以避免群体分成对关联分析结果的影响。

所谓群体分层，是指群体内存在等位基因频率不同的亚群体。由于自然选择、遗传漂变、

群体分层等诸多因素都会影响到群体中的连锁不平衡，因此，在进行关联分析时, 一些非原因等位基因也可以同真实 QTL 形成连锁不平衡表现为与研究性状关联，从而导致伪关联或假阳性的出现。

6. 关联分析

在 GWAS 研究中，当涉及质量性状时一般采用 Logistic 回归模型进行分析，对于数量性状的研究，主要采用线性回归模型进行关联分析。在 Logistic 回归模型中，基因型是应变量，群体结构和表型是自变量；而在线性回归模型中，表型是应变量，其他品种、性别、群体结构和基因型数据则是自变量。线性模型包括两种：一般线性模型（general linear model，GLM）和混合线性模型(mixed linear model，MLM)。复杂数量性状通常受到多种因素的共同影响，而混合模型中可以加入固定效应和随机效应，因此，以研究数量性状的全基因组关联分析方法常采用混合线性模型进行分析。

7. GWAS局限性

① 可靠性：GWAS 主要依赖统计分析，因此可能会出现比较多的假阳性和假阴性结果，，

大量功能实验的验证才是根本解决办法

② 重复性：同一变异在一个群体中呈显著，在另外群体中有时却并不显著，重复性不好。

这是由于不同群体中可能具有不同的等位基因频率，或者不同群体有不同的连锁不平衡区域造成的，因此，GWAS 结果需要进行反复的大样本验证。

③ 精确性：GWAS 可以确定与性状或疾病相关的位点而非直接确定基因本身。目前利用

GWAS研究已发现的与人类疾病关联的SNPs中，约43%变异位于基因间，约45%位于内含子区域，只有很少部分位于基因功能区。

④ 有效性：GWAS研究难以检测到罕见变异是导致其结果较难解释大部分复杂性疾病遗传

学特征的主要原因。目前利用GWAS研究发现的显著位点多为MAF大于5%的常见变异，平均频率约36%，而很少能检测到少见变异（MAF介于0.5%～5%之间）或者罕见变异（MAF< 0. 5%）。

自己的认识：

1. 基于无关个体的关联分析可能会产生群体分层，而仅采用单个家系（利用基于家系的关

联分析）不会产生群体分层，但采用多个家系的基于家系的关联分析，其结果同样可能受群体分层的影响。 2. GWAS-QTL定位-QTN

GWAS与QTN：GWAS揭示的是与目标性状显著关联的SNP标记，这些标记是高密度的，因此显著关联的SNP有可能就是QTN，这需要验证。但这种验证需要QTN的效应非常大。大部分显著关联的SNP无法得到直接验证（它们可能是与QTL连锁的标记，也有可能是效应比较低的QTN）。只能通过重复实验来验证它们与目标性状关联的可靠性。截止到2012年公认的QTN仅有3个：猪的IGF2基因、奶牛的DGAT1基因和绵羊的GDF8基因），但这需要验证。

GWAS与QTL定位：QTL定位所用的作图群体必须要有系谱信息，因此GWAS分型的结果能否用于QTL定位，要根据所用资源群体而定。利用示例3资源群体进行的GWAS得到的结果就无法用于QTL定位。但是利用GWAS的结果进行QTL定位是没有必要的。首先，SNP芯片是高密度的（几十Kb一个SNP），因此可以在显著关联的SNP附近筛选候选基因；其次，即使利用GWAS的结果进行QTL精细定位，也只能将QTL定位在5cM左右，同样也无法找到QTN或主基因。

参考文献：

1. 鸡胫长和胫围的全基因组关联分析

2. 中国荷斯坦牛乳房炎易感性及抗性的全基因组关联分析 3. 全基因组关联分析

4. 绵羊肉用性状全基因组关联分析 5. 奶牛重要经济性状全基因组关联分析 6. 猪肉质性状全基因组关联研究

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文