可变剪切

真核生物的编码区是不连续的,分为外显子(exon)和内含子(intron),在转录过程中会修剪内含子(intron),拼接外显子(exon)来形成转录产物(mRNA)。

一条未经剪接的preRNA,要将非编码蛋白质的内含子(intron)切除,同一基因中的很多个外显子以不同形式进行随机组合(在剪切的过程中是有可能剪切掉一些外显子的),使一个基因在不同时间、不同环境中能够制造出不同的蛋白质,增加生理状况下系统的复杂性或适应性。这个过程有多种多样的剪切和拼接方式,从而产生不同的剪切异构体(isoform)

7种可变剪切类型

参考链接:https://www.jianshu.com/p/c985b9054298

(1)ES(Exon skipping,外显子跳跃)指一个外显子从初始转录物上被剪切掉。如图A所示,基因发生可变剪接形成两种不同的转录本, 第1种转录本比第2种转录组本多一个外显子,我们将这种外显子称为inclusive exon,inclusive exon两侧的两个外显子称为constitutive exon。
(2)A3SS(alternative 3′ splice site,可变的3’端):基因发生可变剪接形成两种不同的转录本,它们的3’端剪接位点一致但5’端剪接位点不同, 第二种转录本的5’端外显子有所延长。
(3)A5SS(alternative 5′ splice site,可变的5’端):基因发生可变剪接形成两种不同的转录本,它们的5’端剪接位点一致但3’端剪接位点不同, 第二种转录本的3’端外显子有所延长。
(4)RI(Retained intron,内含子保留):基因发生可变剪接形成两种不同的转录本, 第2种转录本由retained Intron与两侧的外显子一起形成新的外显子(内含子没切掉)
(5)ME(Mutually exclusive exons,互斥外显子):基因发生可变剪接形成两种不同的转录本,两转录本之间相同的外显子称为constitutive exon, 不同的外显子称为inclusive exon,两个inclusive exon不能同时存在与同一转录本中, 只能分别存在于不同转录本中。 这样的可变剪接事件称为Mutually Exclusive Exon。
(6)AP(Alternate promoter,可变启动子):基因的两个转录本的区别在于第一个外显子不同,这样的可变剪接事件称为Alternative First Exon。
(7)AT(Alternate terminator,可变终止子):基因的两个转录本的不同之处于最后一个外显子不同,这样的可变剪接事件称为Alternative last exon。


有哪些分析可变剪切的软件

没有之一!全网最全的可变剪切分析软件大全

rMATs软件

rMATS 是一种 RNA 测序数据分析软件,可用于发现基因剪切事件的变化。它的主要功能是从两个或多个不同条件的 RNA 测序数据中,比较同一基因在两个或多个条件下的剪切差异,并鉴定不同的剪切事件类型,包括 Alternative 5′ splice site, Alternative 3′ splice site, Exon skipping, Intron retention 和 Mutually exclusive exons 等。

1、软件安装

命令如下:conda insatall rMATS

检查是否安装成功:python rmats.py -h

出现如下信息就是可以了

2、软件使用

运行demo:

 python  rmats.py --nthread 4 --b1  paste0(output ,'/b1.txt') --b2'  paste0(output ,'/b2.txt') --od  output --tmp output -t paired  --gtf  Mus_musculus.GRCm39.110.gtf --readLength 150 --cstat 0.01

参数解读:

 –cstat 0.01

该参数定义了用于 差异剪接(differential splicing) 的假设检验中的阈值(cutoff)。它表示在零假设(null hypothesis)下,认为两组样本之间的剪接差异显著的最小值。
  • 默认值为 0.0001,对应于 0.01% 的差异。
  • 有效范围是 0 ≤ cutoff < 1。
  • 该参数不适用于配对统计模型(paired stats model)。
–readLength 151  #测序reads的长度
–gtf  dbPath_gtf  #参考基因组gtf文件
-t paired   #双端测序为paired,单端测序则为single
–tmp output #指定了存储 中间输出文件 的目录
–od  output #指定了存储 最终输出文件 的目录
 –nthread 4 #线程数

–b1 b1.txt 输入sample1txt格式的文件,文件内以逗号分隔重复样本的bam文件名(实验组)

–b2 b2.txt 输入sample2txt格式的文件,文件内以逗号分隔重复样本的bam文件名(对照组)

xxx表示绝对路径b1.txtxxx/A1.bam,xxx/A2.bam,xxx/A3.bamb2.txtxxx/B1.bam,xxx/B2.bam,xxx/B3.bam
注意:
以BAM作为输入,BAM文件要排序
hisat2比对后产生sam,用samtools转换成bam,排序
  • samtools sort -@ 8 -o ${samplename}.bam  ${samplename}.sam
  • samtools index -@ 8 ${samplename}.bam
3、结果解读
rMATS的结果文件记录了SE、MXE、A3SS、A5SS、RI、5种可变剪切事件分布(如图)
其中JCJCEC的区别在于前者考虑跨越剪切位点的reads,后者不仅考虑前者的reads还考虑到只比对到第一张图中条纹的区域(也就是说没有跨越剪切位点的reads),但是我们一般使用JC的结果就够了(如果只是单纯的比较两组样品间可变剪切的差异的话)。
summary.txt所有AS事件类型的简要摘要。包括总事件计数和重要事件计数。默认情况下,如果FDR<=0.05,则将事件视为重要事件。
我们以MXE.MATS.JC.txt为例:

ID: 序号

GenelD: 可变剪接事件所在基因编号

geneSymbol: 可变剪接事件所在基因名称

chr: 可变剪接事件所在染色体

strand: 可变剪接事件所在染色体链的方向

1stExonStart_0base: 第一个可变剪接事件跳跃外显子的起始位置,以0开始计数

1stExonEnd: 第一个可变剪接事件跳跃外显子的终止位置

2ndExonStart_0base:第二个可变剪接事件跳跃外显子的起始位置,以0开始计数

2ndExonEnd: 第二个可变剪接事件跳跃外显子的终止位置

upstreamES: 可变剪接事件跳跃外显子的上游exon起始位置

upstreamEE: 可变剪接事件跳跃外显子的上游exon终止位置

downstreamES: 可变剪接事件跳跃外显子的下游exon起始位置

downstreamEE: 可变剪接事件跳跃外显子的下游exon终止位置

ID: 序号

分子生物学:什么是可变剪切,如何使用rmats软件分析AS

IJC_SAMPLE_1: 样本一在inclusion junctionIJC)下的count数,重复样本的结果以逗号分隔

SJC_SAMPLE_1: 样本一在skipping junctionSJC)下的count数,重复样本的结果以逗号分隔

IJC_SAMPLE_2: 样本二在inclusion junctionIJC)下的count数,重复样本的结果以逗号分隔

SJC_SAMPLE_2: 样本二在skipping junctionSJC)下的count数,重复样本的结果以逗号分隔

IncFormLen: 可变剪接事件Exon Inclusion Isoform的有效长度

SkipFormLen: 可变剪接事件Exon Skipping Isoform的有效长度

PValue: 两组样本间可变剪接事件表达差异显著性p

FDR: 可变剪接事件表达差异显著性FDR

IncLevel1: 处理组可变剪接事件Exon Inclusion Isoform在两个Isoform总表达量的比值

IncLevel2: 对照组可变剪接事件Exon Inclusion Isoform在两个Isoform总表达量的比值

IncLevelDifference: IncLevel1IncLevel2的差值

(参考:rMATS分析可变剪接详细流程

4、可视化-rmats2sashimiplot

命令如下:Conda insatall rmats2sashimiplot

检查是否安装成功:rmats2sashimiplot -h

出现如下信息就是可以了
运行demo:
rmats2sashimiplot --b1 xxx/A1.bam,xxx/A2.bam,xxx/A3.bam --b2 xxx/B1.bam,xxx/B2.bam,xxx/B3.bam  -t SE -e SE.MATS.JC.txt --l1 treat_name --l2 con_name  --exon_s 1 --intron_s 5 -o output
参数解读:

–b1–b2经过排序且有索引的bam文件

-trmats输出的可变剪接类型,5种类型分别是SE、 RI A3SS、 A5SS MXE

-e对应-t所选参数的文件,这里是SE.MATS.JC.txt

–l1–l2输出对照组和实验组对应的名字,该参数可自定义

o结果输出的文件夹

可视化结果:

解读:
这是一个位置信息的展示(染色体号:位置信息:±链)

有6个样本,以其中一个样本为例

(1)右上角的:NBPF19 1_5dyn-1是sample ID

(2)左侧的RPKM是表达量情况

(3)图中曲线连接的地方代表剪切位点,对于inclusion  isoform而言,有两处剪切位点,exon1-exon2, exon2-exon3 之间的内含子需要被剪切,对于skipping isoform而言,只有1处剪切位点,即exon1-exon3,曲线旁边的数字代表检测到的比对到该区域的reads数目,示意如下

比如这张图中exon skipping isoform(外显子跳跃)的reads为 86、198、479
再举一个例子
比如这张图中样本A-1的exon Inclusion Isoform的reads数分别为176和159,exon skipping isoform的reads为2

(4)lnclevel是exon inclusion level,是Exon Inclusion Isoform在总(Exon Inclusion Isoform + Exon Skipping Isoform)所占比例

lnclevel的计算公式如下:
ψ = (I/lI)/[(S/lS) + (I/II)]

其中:

  1. I是指mapping到exon inclusion isoform的reads数
  2. S指mapping到exon skipping isoform的reads数
  3. II指exon inclusion isoform的有效长度
  4. IS 指exon skipping isoform的有效长度

(这部分不详细讲了,参考:https://www.jianshu.com/p/9c0f837fcab4)


根据GTF文件推算的可变剪切类型

通过这个图可以与上面7种可变剪切类型的示意图进行比对,发现这是第五种ME(互斥外显子)

#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}