写在开头
上期给大家整理了一下10x单细胞分析第一步:Cell Ranger下载+配置,这期就一起来看看怎么分析数据叭!
需要下载的数据及软件主要有三个,在cellranger下载安装与配置有分享过下载地址:
-
cellranger软件
-
pbmc_1k_v3_fastqs测序数据
PBMC:外周血单个核细胞(Peripheral Blood Mononuclear Cells)包含淋巴细胞(T细胞、B细胞)、单核细胞等,是免疫学研究中最常用的样本类型
-
refdata-gex-GRCh38参考基因组
10x Genomics官方提供的预构建参考基因组包,专门用于人类单细胞基因表达分析。
-
GRCh38:人类基因组版本Genome Reference Consortium Human Build 38
文件都会比较大,下载或者上传都需要一定时间,下载下来的是tar.gz或者tar的压缩文件,使用tar命令解压开来即可!
cellranger对于使用的fq文件有一些命名的要求,不过pbmc的示例数据已经给我们整理好了的。如果后续下载公共数据集,就需要进行一些相应的整理。
cellranger count命令简析
需要用到的命令是cellranger count!
cellranger count是 10x Genomics 单细胞分析流程中的核心命令,用于处理单个样本和单个GEM孔(Gel Bead-in-Emulsion well)的原始测序数据,生成基因表达和/或特征条形码(Feature Barcode)的定量结果。
根据官方文档,运行 cellranger count 至少需要以下参数:
cellranger count
--id=<运行ID>
--transcriptome=<参考基因组路径>
--fastqs=<FASTQ文件路径>
--sample=<样本名>
关键参数说明:
-
--id:必需,输出文件夹名称 -
--transcriptome:必需,预构建的参考转录组路径(如GRCh38) -
--fastqs:包含由cellranger mkfastq或bcl2fastq生成的FASTQ文件的目录 -
--sample:用于识别样本特定的FASTQ文件(文件名前缀) -
--localcores:限制使用的CPU核心数(默认使用全部核心) -
--localmem:限制使用的内存(GB)
在之前菜鸟团的推文——玩转服务器 — 运行Cell Ranger你必须知道的两个参数也提到过,--localcores以及--localmem这两个参数。
因为默认是使用全部的CPU核心数,所以不论是课题组的服务器还是共享服务器,还是要稍微注意下,不要调用全部的,容易被管理员kill掉任务。
运行cellranger
将需要的软件及数据解压开来之后,就可以运行cellranger count啦!
cellranger count
--id run_pbmc_1k_v3_fastqs
--create-bam true
--transcriptome refdata-gex-GRCh38-2024-A/
--fastqs pbmc_1k_v3_fastqs/
--nosecondary
--localcores 16
--localmem 64
1. 程序启动信息
Martian Runtime - v4.0.13
Serving UI at http://staru05-server:45995...
Running preflight checks (please wait)..
-
✅ 正常:显示运行环境版本,并启动了网页监控界面(可复制链接到浏览器实时查看进度) -
✅ 正常:正在执行运行前的系统检查
2. 预检过程(正常)
Checking sample info...

Checking FASTQ folder...
Checking reference..
-
✅ 正常:这是Cell Ranger在正式分析前对输入数据的三项关键验证,确保样本信息、FASTQ文件和参考基因组都存在且格式正确
3. 云端注释Token缺失
Could not find a 10x cloud token...
In order to enable cell annotation, run cellranger cloud auth setup...
-
⚠️ 警告,但可忽略:这是关于可选功能的提示,说明未配置10x Genomics云端账号,无法使用自动细胞类型注释功能
运行了二十分钟就运行完了,然后输出了一些结果文件
结果文件简析
主要的结果文件都放在out文件夹里面
1. 过滤后的表达矩阵
|
|
|
|
|---|---|---|
filtered_feature_bc_matrix/ |
MEX格式
– barcodes.tsv.gz: 细胞条形码(行名)– features.tsv.gz: 基因信息(列名)– matrix.mtx.gz: 表达量数据 |
最推荐
– 已去除空液滴和低质量细胞 |
filtered_feature_bc_matrix.h5 |
HDF5格式
|
– Python: scanpy.read_10x_h5()– R: Seurat::Read10X_h5() |
2. 📁 原始数据矩阵(质控参考)
|
|
|
|
|---|---|---|
raw_feature_bc_matrix/ |
文件结构与上面相同 |
– 评估背景噪音水平 – 分析空液滴数据 |
raw_feature_bc_matrix.h5 |
|
|
3. 📈 质控与统计文件
|
|
|
|
|---|---|---|
web_summary.html |
网页版质控报告
|
包含:细胞数、基因数、测序饱和度、双细胞比例等 |
metrics_summary.csv |
|
便于批量比较多个样本 |
web_summary.html 是评估实验成败的第一手资料。
4. 🧬 分子与比对信息
|
|
|
|
|---|---|---|
molecule_info.h5 |
|
cellranger aggr)– 高级质控追溯 |
possorted_genome_bam.bam |
|
– 分析可变剪接 – 注意:文件巨大(通常几十GB) |
possorted_genome_bam.bam.bai |
|
|
结果中输出了bam文件,后续会基于这个文件去跑RNA velocity分析
web_summary.html结果理解
数据值理解:
|
|
|
|
|
|---|---|---|---|
| Estimated Number of Cells
|
1,221 |
(您的是1k数据) |
|
| Median Genes per Cell
|
3,290 | >1,000
>3,000 优秀 |
|
| Median UMI Counts per Cell
|
10,029 | >5,000
|
|
| Total Genes Detected
|
25,863 | >20,000
|
|
| Sequencing Saturation
|
70.8% | 50-80%
>90% 浪费 |
|
| Mean Reads per Cell
|
54,547 | >20,000
|
|
| Fraction Reads in Cells
|
95.6% | >70%
>90% 优秀 |
|
| Q30 Bases in Barcode | 94.1% | >85% |
|
| Q30 Bases in RNA Read | 90.2% | >80% |
|
图形理解:之前单细胞常见图表的第一期,就是解析的细胞鉴定曲线图
-
✅ 清晰拐点:图中细胞(高UMI)与背景(低UMI)界限分明 -
✅ 背景线平坦:背景液滴信号低,说明实验干净 -
✅ 细胞区陡峭:真实细胞信号强