可变剪切
真核生物的编码区是不连续的,分为外显子(exon)和内含子(intron),在转录过程中会修剪内含子(intron),拼接外显子(exon)来形成转录产物(mRNA)。
一条未经剪接的preRNA,要将非编码蛋白质的内含子(intron)切除,同一基因中的很多个外显子以不同形式进行随机组合(在剪切的过程中是有可能剪切掉一些外显子的),使一个基因在不同时间、不同环境中能够制造出不同的蛋白质,增加生理状况下系统的复杂性或适应性。这个过程有多种多样的剪切和拼接方式,从而产生不同的剪切异构体(isoform)。
7种可变剪切类型
(参考链接:https://www.jianshu.com/p/c985b9054298)
rMATs软件
rMATS 是一种 RNA 测序数据分析软件,可用于发现基因剪切事件的变化。它的主要功能是从两个或多个不同条件的 RNA 测序数据中,比较同一基因在两个或多个条件下的剪切差异,并鉴定不同的剪切事件类型,包括 Alternative 5′ splice site, Alternative 3′ splice site, Exon skipping, Intron retention 和 Mutually exclusive exons 等。
1、软件安装
命令如下:conda insatall rMATS
检查是否安装成功:python rmats.py -h
出现如下信息就是可以了
2、软件使用
运行demo:
python rmats.py --nthread 4 --b1 paste0(output ,'/b1.txt') --b2' paste0(output ,'/b2.txt') --od output --tmp output -t paired --gtf Mus_musculus.GRCm39.110.gtf --readLength 150 --cstat 0.01参数解读:
–cstat 0.01
-
默认值为 0.0001,对应于 0.01% 的差异。 -
有效范围是 0 ≤ cutoff < 1。 -
该参数不适用于配对统计模型(paired stats model)。
–b1 b1.txt 输入sample1的txt格式的文件,文件内以逗号分隔重复样本的bam文件名(实验组)
–b2 b2.txt 输入sample2的txt格式的文件,文件内以逗号分隔重复样本的bam文件名(对照组)
xxx表示绝对路径b1.txtxxx/A1.bam,xxx/A2.bam,xxx/A3.bamb2.txtxxx/B1.bam,xxx/B2.bam,xxx/B3.bam
-
samtools sort -@ 8 -o ${samplename}.bam ${samplename}.sam -
samtools index -@ 8 ${samplename}.bam
ID: 序号
GenelD: 可变剪接事件所在基因编号
geneSymbol: 可变剪接事件所在基因名称
chr: 可变剪接事件所在染色体
strand: 可变剪接事件所在染色体链的方向
1stExonStart_0base: 第一个可变剪接事件跳跃外显子的起始位置,以0开始计数
1stExonEnd: 第一个可变剪接事件跳跃外显子的终止位置
2ndExonStart_0base:第二个可变剪接事件跳跃外显子的起始位置,以0开始计数
2ndExonEnd: 第二个可变剪接事件跳跃外显子的终止位置
upstreamES: 可变剪接事件跳跃外显子的上游exon起始位置
upstreamEE: 可变剪接事件跳跃外显子的上游exon终止位置
downstreamES: 可变剪接事件跳跃外显子的下游exon起始位置
downstreamEE: 可变剪接事件跳跃外显子的下游exon终止位置
ID: 序号

IJC_SAMPLE_1: 样本一在inclusion junction(IJC)下的count数,重复样本的结果以逗号分隔
SJC_SAMPLE_1: 样本一在skipping junction(SJC)下的count数,重复样本的结果以逗号分隔
IJC_SAMPLE_2: 样本二在inclusion junction(IJC)下的count数,重复样本的结果以逗号分隔
SJC_SAMPLE_2: 样本二在skipping junction(SJC)下的count数,重复样本的结果以逗号分隔
IncFormLen: 可变剪接事件Exon Inclusion Isoform的有效长度
SkipFormLen: 可变剪接事件Exon Skipping Isoform的有效长度
PValue: 两组样本间可变剪接事件表达差异显著性p值
FDR: 可变剪接事件表达差异显著性FDR值
IncLevel1: 处理组可变剪接事件Exon Inclusion Isoform在两个Isoform总表达量的比值
IncLevel2: 对照组可变剪接事件Exon Inclusion Isoform在两个Isoform总表达量的比值
IncLevelDifference: IncLevel1与IncLevel2的差值
4、可视化-rmats2sashimiplot
命令如下:Conda insatall rmats2sashimiplot
检查是否安装成功:rmats2sashimiplot -h
rmats2sashimiplot --b1 xxx/A1.bam,xxx/A2.bam,xxx/A3.bam --b2 xxx/B1.bam,xxx/B2.bam,xxx/B3.bam -t SE -e SE.MATS.JC.txt --l1 treat_name --l2 con_name --exon_s 1 --intron_s 5 -o output–b1和–b2:经过排序且有索引的bam文件
-t:rmats输出的可变剪接类型,5种类型分别是SE、 RI 、A3SS、 A5SS 和MXE
-e:对应-t所选参数的文件,这里是SE.MATS.JC.txt
–l1和–l2:输出对照组和实验组对应的名字,该参数可自定义
–o:结果输出的文件夹
可视化结果:
(1)右上角的:NBPF19 1_5dyn-1是sample ID
(3)图中曲线连接的地方代表剪切位点,对于inclusion isoform而言,有两处剪切位点,exon1-exon2, exon2-exon3 之间的内含子需要被剪切,对于skipping isoform而言,只有1处剪切位点,即exon1-exon3,曲线旁边的数字代表检测到的比对到该区域的reads数目,示意如下
(4)lnclevel是exon inclusion level,是Exon Inclusion Isoform在总(Exon Inclusion Isoform + Exon Skipping Isoform)所占比例
lnclevel的计算公式如下:
ψ = (I/lI)/[(S/lS) + (I/II)]
其中:
I是指mapping到exon inclusion isoform的reads数 S指mapping到exon skipping isoform的reads数 II指exon inclusion isoform的有效长度 IS 指exon skipping isoform的有效长度
(这部分不详细讲了,参考:https://www.jianshu.com/p/9c0f837fcab4)
下
根据GTF文件推算的可变剪切类型
通过这个图可以与上面7种可变剪切类型的示意图进行比对,发现这是第五种ME(互斥外显子)
#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}