阅读是最好的习惯

【原】200块的代码我的学徒免费送给你,GSVA和生存分析

【原】200块的代码我的学徒免费送给你,GSVA和生存分析

(现在学习量和弹幕都非常少,大家的机会来了哦!)

这10个批量处理的PPT技巧,让你的效率提升100倍!

职场中要学的PPT技能,不一定是为了漂亮、炫酷,更是为了高效、省时。在职场中脱颖而出的秘密或许并没有那么麻烦,对同样一件事,别人用一小时完成,你用一分钟能完成,你就是超级人才。今天,就为各位总结了PPT中的10大批量处理的技巧,提升你的制作效率!文本批量快速排版:文本转SmartArt众所周知SmartArt是PPT中一个比较高效的工具,但这个工具归在「插入」中,在以往的做法中,很多人一般都是先插入一个SmartArt图形,然后在里面敲字。有时候也可能已经有了一段文本,大部分人也是先点击插入一个 更多

https://www.bilibili.com/video/av81874183

最近做的生存分析都是奇奇怪怪的,从来没有重复出作者的图。哈哈哈,但是我相信自己的代码是没有错的,只是参数设置跟作者不同而已。

最近跟着Jimmy老师的视频,学习用GSVA做生存分析,反反复复做了几次都无法复现作者的结果。

第一次是我找的基因集跟作者不一致,第二次可能参数不同,也只有一个显著性结果。

看了这篇推文,帮助你节约200块钱,可以多搓一顿火锅了。

看上图👆,不是我骗你,真的有人代码卖200块。好啦,正文开始啦!

学习前必须要知道的生物学知识

生存分析(Survival analysis)是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法,也称生存率分析或存活率分析。常见分析的用寿命表法、Kaplan-Meier,Cox回归等等. 构建在于病人分组后进行比较!

如果是多个基因,可以通过GSVA来进行分组再去做生存分析。

GSVA (The Gene Set Variation Analysis package for microarray and RNA-seq data),算法太复杂,详情搜对应的R包。

我是大标题-1.读文献

       第一步需要对文献进行解析,文献来源为Cell. 2018 May  :Chemoresistance Evolution in Triple-Negative Breast Cancer Delineated by Single-Cell Sequencing

        暂时跳过了这一步,因为时间有限,就先看了Jimmy老师的推文使用单细胞多组学探索TNBC病人的新辅助化疗疗效

大标题-2.数据库查询指定基因集的基因列表

msigdb数据库(找出基因集的基因)

根据一些feature分类;可能是unique,可能是multi

下载msigd数据库的all.gmt数据后,用Linux处理

打开对应的官网(/gsea/msigdb/index.jsp)

👆就是对应的gmt文件,我们下载基因名称的gmt文件

然后打开终端,cd到文件夹

结果如👇

这里做了两次,我分两次讲解,第二次会总结第一次的错误

找到你想要的基因集的基因

这里我下载成entrezID.gmt,后面重新下载。正确基因集的结果如👇

这里有一个基因集找不到,只有查看来源文献Loss of E-cadherin promotes metastasis via multiple downstream transcriptional pathways

结果是文献套文献,套娃么。。放弃掉,这5个应该也够了。

下面是用哪个metabric下载表达矩阵

官网为[/datasets],这里下载需要的BRCA的数据

下载完成解压后内容如👇

主要用到临床信息、表达矩阵与体细胞变异文件

后面就可以放在R语言了完成🌶

接下来还需要做一些变化,因为表达矩阵的样本名是以”.”分割

而临床信息是”-“分割

可以看到有427个病人属于这个亚型。如果不看Jimmy老师的视屏,我不会知道哪些是TNBC的。😃,生物学背景真的很重要,见推文没有生物学背景的数据分析很危险

用Linux将前面得到的基因集复制到一个文档,后缀为gmt

结果如👇

大标题-3.GSVA

有了上面的文件就可以利用GSVA计算了

👆是两种算法的差异结果,具体我也没有看太懂,根据文章设置参数就好。

大标题-4.生存分析

两部分:es.max/es.dif

es.max

筛选完成后只剩398个样本

根据文献大于0.1为“high,小于”-0.1“为low,方法就是用的GSVA,所以这里我们对其进行分组

结果如👇,没有一个显著

但当我把参数调为0.2的时候居然第一个基因集ECM显著,但是并不是文章中显著的2个基因集(AKT、HYPOXIA)

下面我用另一种方法试一下

方法跟👆差不多

结果如👇

参数为0.1,只有第一个基因集ECM显著

参数为0.2时,也是只有第一个基因集ECM显著

大标题-插曲

前面在下载gmt数据那里做了两次,第一次在上面已经讲解了,下面是第二次的探索过程,第二次会总结第一次的错误。

那么为什么有如此大的差别呢?方法与文中一致,那么只可能是数据出现的问题。检查文章,果然发现筛选的基因集不一致。前面我们主要筛选的是HALLMARK的基因集,是由多个已知的基因集构成的超基因集

而文章里用的是以前文章发表的基因集

那应该怎么搜索基因集呢?我找到了规律,只需要搜索作者名字+基因集名称就可以了

结果如下面

这就是我们所需要的基因集了,其他基因集方法类似

其他的3个基因集文章没有并给文献,只能默认用HALLMARK的基因集

其实跟第一次类似,不同的地方做注释,相似的地方不在赘述。这里以hypoxia基因集作为🌰,其他的基因集类似

最终结果如👇

0.1的阈值,MAX法结果只有文章中显著的1个基因集(AKT)显著,另一个HYPOXIA并不显著

0.1的阈值,diff法结果文章中显著的1个基因集(AKT)显著,另一个HYPOXIA并不显著,另外ECM基因集也显著

综上所述,生存分析就是任人打扮的小姑娘,不同参数,不同数据集,不同基因集,不同方法结果就会不一样,只要细心调整参数,总有你想要的结果,虽然听起来有点不寒而栗!

这10个批量处理的PPT技巧,让你的效率提升100倍!

职场中要学的PPT技能,不一定是为了漂亮、炫酷,更是为了高效、省时。在职场中脱颖而出的秘密或许并没有那么麻烦,对同样一件事,别人用一小时完成,你用一分钟能完成,你就是超级人才。今天,就为各位总结了PPT中的10大批量处理的技巧,提升你的制作效率!文本批量快速排版:文本转SmartArt众所周知SmartArt是PPT中一个比较高效的工具,但这个工具归在「插入」中,在以往的做法中,很多人一般都是先插入一个SmartArt图形,然后在里面敲字。有时候也可能已经有了一段文本,大部分人也是先点击插入一个 更多

赞(0) 打赏
未经允许不得转载:微精选 » 【原】200块的代码我的学徒免费送给你,GSVA和生存分析
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏