大家好,我是邓飞。

有小伙伴在群里面问,GWAS分析要不要进行LD质控,我觉得问题很好,这里介绍一下。

1. 什么是连锁不平衡(LD)

介绍之前连锁不平衡(LD)之前,先介绍连锁平衡(LE)。连锁平衡 (Linkage Equilibrium, LE),在基因组上,如果两个不同基因座上的等位基因是随机组合在一起的,那么它们就处于连锁平衡状态。这意味着,知道一个基因座上的等位基因类型,并不能预测另一个基因座上的等位基因类型。

飞哥注:这个和孟德尔第二遗传定律,即自由组合定律很像,不同基因在减数分裂时随非同源染色体自由组合,独立传递给后代,任意两个基因的等位基因组合频率等于各自等位基因频率的乘积,这就是处于连锁平衡状态。

LD 指基因组中不同位点的等位基因非随机共现的现象(即某些位点的基因型总是 “捆绑出现”)。连锁不平衡是指不同基因位点上的等位基因之间存在非随机关联—— 即某两个等位基因同时出现的频率,显著高于或低于它们随机组合的预期频率。

飞哥注:这个和摩尔根第三遗传定律,即基因连锁与互换定律很像,基因在染色体上呈线性排列,物理距离越近的基因,连锁程度越高(重组率越低);距离越远,越容易因交叉互换而重组(重组率越高)。

所以,摩尔根的遗传定律是解释连锁不平衡产生和维持的遗传学基础。那么连锁不平衡产生的因素有哪些呢?

2. 为什么会产生连锁不平衡(LD)

连锁不平衡的产生和维持受多重因素的影响,最重要的就是物理距离,两个基因座距离很近,那么在减数分裂时,他们之间的重组就很少,发生的概率很低,作为一个整体(单倍型)遗传给下一代的概率就很大,所以LD就很高。

其它因素也会导致群体高的LD,比如受选择的群体,比如育种群体,某些有利的突变会在群体中迅速扩散,导致群体内的这个区域的LD升高,这也是野生群体LD衰减很快,而驯化改良群体LD衰减很慢的原因。LD衰减图绘制–PopLDdecay

GWAS分析要不要进行LD质控?

3 admixture分析要不要进行LD质控?

Admixtue说明文档中介绍:去掉LD高的SNP不会对结果有影响,因为计算不依赖于LD,会大大提升运行速度。关于Admixture,可以参考这篇博客:Admixture使用说明文档cookbook

如果我们使用plink进行LD质控,可以用下面的代码,标准默认是0.1,有时候也可以选择0.2或者0.05,根据自己的数据量确定。

LD质控,是为了降低数据量,特别是admixture进行群体结构分析时,会大大降低运行的时间,当然,有多线程和大内存服务器的小伙伴,完全可以用所有的位点,毕竟成年人的世界,两者都要才是普遍的,都跑一下,看看结果是否有差异。个人经验,无论是LD质控不质控,只要剩下有一定的数据量,结果变化不大。

==答案:群体结构admixture分析时,建议进行LD质控,推荐质控标准是 50 10 0.2。==

4. GWAS分析是否要进行LD质控?

GWAS分析中,依据就是至少有一个SNP与所控制的基因处于连锁不平衡状态(LD),那么,如果这个基因导致了表型变化,那么我们就可以通过它所连锁的SNP检测到显著性变化。如果这个基因附近的SNP都与基因存在LD,那么可以检测到聚集的SNP显著性为点,显著性位点成簇出现,类似下图:真实的显著位点应该是在基因两侧分布的,有一个上升和下降的趋势。GWAS分析中QQ图和曼哈顿图如何看?

上图中,显著性位点,成簇出现的位点之间,肯定存在LD,如果通过LD过滤掉了,只剩下1个,就会呈现这种图:我们认为这可能是假阳性,因为周围没有位点佐证它。

所以,GWAS分析时,不要对LD进行质控,起码不要严格的质控。

5. 反过来想

我们在评价GWAS项目位点数是否够用时,通过LD衰减距离和基因组的大小来判断(做GWAS分析的群体,最少需要多少SNP?),具体公式: 

现在求出LD衰减距离为1Mb,猪的基因组大小为2458Mb,那么GWAS所需要标记量是多少?

计算方法:1,因为单位都是Mb,所以可以直接计算 2,2458Mb/1Mb = 2458,注意这个单位是Mb,所以,该群体做GWAS至少需要2458个SNP标记。