本期内容是二代测序即NGS又称为高通量测序,内容包括二代测序的平台、仪器、技术参数,如何去判断测序数据质量等。如果大家后续有测序需求,也可以判断一下测序公司的质量和专业性。

一、二代测序介绍

常见的二代测序有常规转录组、单细胞转录组、宏基因组、扩增子、时空组等等。从研究方向看涉及的领域还是比较多的,但底层技术都是二代测序。简单来说,二代测序技术就是DNA复制过程中通过捕捉新添加的碱基所携带的特殊标记来确定DNA的序列一般为荧光分子标记

目前市面上的测序公司用的主要测序平台有illumina和华大智造,比如说illuminanovaseq6000Xplus,小通量的有miniseqmiseq,测序公司可能用高通量仪器比较多。华大平台的有DNBseq-G99DNBseq-T1T7等等。这里给大家总结了几款仪器的技术参数,包括读长、通量、运行时间、技术特点、适用场景(内容参考的是平台官方的说明书)。

二、如何判断测序数据质量

1.Phred score/Q值

它是用来衡量测序碱基识别准确性的关键指标,通常以Q来表示,比如说Q20Q30Q40,我们常见的 Q30 80%,其中 Q30 就是表示碱基识别错误概率为 103,也就是 0.1% ,这就意味着正确率是 99.9% 。计算公式如下:

P表示碱基识别错误的概率,并不是直接测量值,是通过测序仪的信号强度统计模型推导得出,比如说荧光信号,假设某个位点的信号强度为:A=9000, T=30, C=30, G=40。碱基A是当前位点的正确碱基,则其他信号(T/C/G)就可能由噪声或交叉干扰产生。此时P=错误信和之和/总信号之和,即(30 30 40)/(9000 30 30 40)= 0.01

二代测序|快速入门二代测序平台,判断测序数据质量

Phred score的值一般和仪器本身、测序方法比如说是单端测序还是双端测序、还和测序的读长有关,以下是illumina novaseq 6000和华大DNBseq-G99的质量分数:

illumina novaseq 6000

华大DNBseq-G99

2.测序深度
百度百科解释:

可以理解为基因组中每个碱基被测序到的平均次数,也就是将基因组测了几遍。比如某样本的测序深度为50X,意思就是这个样本基因组上每一个碱基平均被测序了30次。如果就数据量来说的话,某基因组大小是3G,测序深度是30X,那么最终得到的数据量就是3X30=90G。测序深度不够会引发很多问题,包括对低频突变的漏检也就是假阴性率高,比如说在30×深度下,2%突变可能仅被0.6reads覆盖,无法进行确认,容易被误认为测序噪声。同样的测序深度不够也会造成假阳性,把随机测序错误误认为是真实变异。这就像是我们计算硬币正反面概率,那次数肯定是越多越好,无限多次抛硬币,得到的概率结果才更趋于真实概率。测序深度一般是和我们的样本质量、检测目的、数据分析要求有关。

3.接头污染率

adapter污染率,上机测序的文库序列结构中是包含有接头序列的,比如说单细胞中cDNA文库的序列构成:

黑色片段即为测序接头。接头涉及到具体的测序原理,后期内容再出。接头污染会对数据造成多种影响。比如,降低比对率,因接头序列无法比对到参考基因组,导致有效数据比例下降。此外,还会增加假阳性变异,因接头序列可能被误认为变异,导致假阳性结果。两个平台的接头污染率根据其官方文件及相关文献中的数据显示列表:

4.index hopping

即标签跳跃或错配,指的是在测序的过程中,样本的index标签错误地分配到其他样本上,导致数据混淆和错误分配。index在单细胞的视频里面提到过,可以理解为是样本的标签,index hopping会造成特定类型错比对,导致文库不能比对到预期标签而是被错误地比对到另一个标签上。index hopping率越高,数据质量相对就较差。

两个平台的indexhopping率根据其官方文件及相关文献中的数据显示列表:

提供几篇对不同平台数据进行对比的文献

此外,还有比对率、重复率、GC含量偏差、随机错误率等等指标没有展开说,感兴趣的话可以评论区告诉我。