昨天介绍了 打死我也不相信这细胞亚群比例变化不是人为挑选的!,小伙伴们纷纷留言表示希望我可以复现这个文献的数据分析流程。。。。
但是呢,臣妾做不到啊!因为机智的研究者们把他们的单细胞转录组测序数据上传到了中国的组学数据库中心,并不是公开的,需要申请和审核,大家懂得都懂,基本上可以放弃了。小伙伴们可以仔细下载文章《Single-cell multi-omic and spatial profiling of esophageal squamous cell carcinoma reveals the immunosuppressive role of GPR116+ pericytes in cancer metastasis》,看看它的数据集:HRA007518 ,虽然说这个数据集我们没办法重新分析,但是我们有其它的食管癌的单细胞转录组公共数据集,只需要实验设计一样的,就可以驳斥他们的观点啦!
但同时我也在 打死我也不相信这细胞亚群比例变化不是人为挑选的!,提到了其实有多个类似的实验设计的食管癌的单细胞转录组数据集啊, 比如:2021-ESCC-PRJNA777911这个数据集,是汕头大学的文章:《Integrated single-cell transcriptome analysis reveals heterogeneity of esophageal squamous cell carcinoma microenvironment》,因为是四年前的数据分析啦,所以当时作者是62,161 cells from blood, adjacent nonmalignant and matched tumor samples from 11 ESCC patients. 实际上如果我们自己下载这个PRJNA777911的fq文件然后走cellranger流程自己定量,可以拿到几乎是翻倍的单细胞数量哦!
虽然是文章的样本收集是:从11名未经治疗的ESCC患者中收集肿瘤组织、邻近非肿瘤组织以及其中3名患者的外周血单核细胞(PBMCs),但是我们想复现的是肿瘤组织和邻近非肿瘤组织的差异,所以不需要考虑pbmc样品哈。
我整理的第一层次降维聚类分群可以如下所示:

这样的话就可以统计每个样品的细胞比例,如下所示:
因为样品是有分组, 就可以统计两个组里面的不同单细胞亚群的比例是否有差异:
可以看到,比较靠谱的细胞比例变化就是上皮细胞在肿瘤样品里面比正常对照是多很多。但是成纤维或者其它细胞亚群,很难就达到统计学显著性。更别说做到在 打死我也不相信这细胞亚群比例变化不是人为挑选的!里面的悬殊巨大的正常组织里面的成纤维!
当然了,同一时间, 很多小伙伴也做了其它食管癌的单细胞转录组数据集,比如 GSE145370, GSE160269, GSE188900 and GSE196756, 其中就GSE160269比较让人迷惑, 因为它对应的文章:《Dissecting esophageal squamous-cell carcinoma ecosystem by single-cell transcriptomic analysis》看起来确实是,成纤维细胞亚群占比非常高,尤其是在normal组别里面,可以占比接近百分之八九十啦。确实是做到在 打死我也不相信这细胞亚群比例变化不是人为挑选的!里面的悬殊巨大的正常组织里面的成纤维,但是这个GSE160269数据集是进行了免疫细胞去除的操作(流式细胞分选)啊,它的合理是有生物学基础的。