GWAS分析要不要进行LD质控？

大家好，我是邓飞。

有小伙伴在群里面问，GWAS分析要不要进行LD质控，我觉得问题很好，这里介绍一下。

1. 什么是连锁不平衡（LD）

介绍之前连锁不平衡（LD）之前，先介绍连锁平衡（LE）。连锁平衡 (Linkage Equilibrium, LE)，在基因组上，如果两个不同基因座上的等位基因是随机组合在一起的，那么它们就处于连锁平衡状态。这意味着，知道一个基因座上的等位基因类型，并不能预测另一个基因座上的等位基因类型。

飞哥注：这个和孟德尔第二遗传定律，即自由组合定律很像，不同基因在减数分裂时随非同源染色体自由组合，独立传递给后代，任意两个基因的等位基因组合频率等于各自等位基因频率的乘积，这就是处于连锁平衡状态。

LD 指基因组中不同位点的等位基因非随机共现的现象（即某些位点的基因型总是 “捆绑出现”）。连锁不平衡是指不同基因位点上的等位基因之间存在非随机关联—— 即某两个等位基因同时出现的频率，显著高于或低于它们随机组合的预期频率。

飞哥注：这个和摩尔根第三遗传定律，即基因连锁与互换定律很像，基因在染色体上呈线性排列，物理距离越近的基因，连锁程度越高（重组率越低）；距离越远，越容易因交叉互换而重组（重组率越高）。

所以，摩尔根的遗传定律是解释连锁不平衡产生和维持的遗传学基础。那么连锁不平衡产生的因素有哪些呢？

2. 为什么会产生连锁不平衡（LD）

连锁不平衡的产生和维持受多重因素的影响，最重要的就是物理距离，两个基因座距离很近，那么在减数分裂时，他们之间的重组就很少，发生的概率很低，作为一个整体（单倍型）遗传给下一代的概率就很大，所以LD就很高。

其它因素也会导致群体高的LD，比如受选择的群体，比如育种群体，某些有利的突变会在群体中迅速扩散，导致群体内的这个区域的LD升高，这也是野生群体LD衰减很快，而驯化改良群体LD衰减很慢的原因。LD衰减图绘制–PopLDdecay

3 admixture分析要不要进行LD质控？

Admixtue说明文档中介绍：去掉LD高的SNP不会对结果有影响，因为计算不依赖于LD，会大大提升运行速度。关于Admixture，可以参考这篇博客：Admixture使用说明文档cookbook

如果我们使用plink进行LD质控，可以用下面的代码，标准默认是0.1，有时候也可以选择0.2或者0.05，根据自己的数据量确定。

LD质控，是为了降低数据量，特别是admixture进行群体结构分析时，会大大降低运行的时间，当然，有多线程和大内存服务器的小伙伴，完全可以用所有的位点，毕竟成年人的世界，两者都要才是普遍的，都跑一下，看看结果是否有差异。个人经验，无论是LD质控不质控，只要剩下有一定的数据量，结果变化不大。

==答案：群体结构admixture分析时，建议进行LD质控，推荐质控标准是 50 10 0.2。==

4. GWAS分析是否要进行LD质控？

GWAS分析中，依据就是至少有一个SNP与所控制的基因处于连锁不平衡状态（LD），那么，如果这个基因导致了表型变化，那么我们就可以通过它所连锁的SNP检测到显著性变化。如果这个基因附近的SNP都与基因存在LD，那么可以检测到聚集的SNP显著性为点，显著性位点成簇出现，类似下图：真实的显著位点应该是在基因两侧分布的，有一个上升和下降的趋势。GWAS分析中QQ图和曼哈顿图如何看？

上图中，显著性位点，成簇出现的位点之间，肯定存在LD，如果通过LD过滤掉了，只剩下1个，就会呈现这种图：我们认为这可能是假阳性，因为周围没有位点佐证它。

所以，GWAS分析时，不要对LD进行质控，起码不要严格的质控。

5. 反过来想

我们在评价GWAS项目位点数是否够用时，通过LD衰减距离和基因组的大小来判断（做GWAS分析的群体，最少需要多少SNP？），具体公式：

现在求出LD衰减距离为1Mb，猪的基因组大小为2458Mb，那么GWAS所需要标记量是多少？

计算方法：1，因为单位都是Mb，所以可以直接计算 2，2458Mb/1Mb = 2458，注意这个单位是Mb，所以，该群体做GWAS至少需要2458个SNP标记。

微精选