写在开头

上期给大家整理了一下10x单细胞分析第一步:Cell Ranger下载+配置,这期就一起来看看怎么分析数据叭!

需要下载的数据及软件主要有三个,在cellranger下载安装与配置有分享过下载地址:

  • cellranger软件

  • pbmc_1k_v3_fastqs测序数据

PBMC:外周血单个核细胞(Peripheral Blood Mononuclear Cells)包含淋巴细胞(T细胞、B细胞)、单核细胞等,是免疫学研究中最常用的样本类型

  • refdata-gex-GRCh38参考基因组

10x Genomics官方提供的预构建参考基因组包,专门用于人类单细胞基因表达分析。

  • GRCh38:人类基因组版本Genome Reference Consortium Human Build 38

文件都会比较大,下载或者上传都需要一定时间,下载下来的是tar.gz或者tar的压缩文件,使用tar命令解压开来即可!

cellranger对于使用的fq文件有一些命名的要求,不过pbmc的示例数据已经给我们整理好了的。如果后续下载公共数据集,就需要进行一些相应的整理。

cellranger count命令简析

需要用到的命令是cellranger count!

cellranger count 是 10x Genomics 单细胞分析流程中的核心命令,用于处理单个样本和单个GEM孔(Gel Bead-in-Emulsion well)的原始测序数据,生成基因表达和/或特征条形码(Feature Barcode)的定量结果。

根据官方文档,运行 cellranger count 至少需要以下参数:

cellranger count 
  --id=<运行ID>
  --transcriptome=<参考基因组路径>
  --fastqs=<FASTQ文件路径>
  --sample=<样本名>

关键参数说明

  • --id:必需,输出文件夹名称
  • --transcriptome:必需,预构建的参考转录组路径(如GRCh38)
  • --fastqs:包含由cellranger mkfastqbcl2fastq生成的FASTQ文件的目录
  • --sample:用于识别样本特定的FASTQ文件(文件名前缀)
  • --localcores:限制使用的CPU核心数(默认使用全部核心)
  • --localmem:限制使用的内存(GB)

在之前菜鸟团的推文——玩转服务器 — 运行Cell Ranger你必须知道的两个参数也提到过,--localcores以及--localmem这两个参数。

因为默认是使用全部的CPU核心数,所以不论是课题组的服务器还是共享服务器,还是要稍微注意下,不要调用全部的,容易被管理员kill掉任务。

运行cellranger

将需要的软件及数据解压开来之后,就可以运行cellranger count啦!

cellranger count 
--id run_pbmc_1k_v3_fastqs
--create-bam true 
--transcriptome refdata-gex-GRCh38-2024-A/
--fastqs pbmc_1k_v3_fastqs/
--nosecondary
--localcores 16
--localmem 64

1. 程序启动信息

Martian Runtime - v4.0.13
Serving UI at http://staru05-server:45995...
Running preflight checks (please wait)..
  • ✅ 正常:显示运行环境版本,并启动了网页监控界面(可复制链接到浏览器实时查看进度)
  • ✅ 正常:正在执行运行前的系统检查

2. 预检过程(正常)

Checking sample info...
cellranger count参数设置与结果解读
Checking FASTQ folder...
Checking reference..
  • ✅ 正常:这是Cell Ranger在正式分析前对输入数据的三项关键验证,确保样本信息、FASTQ文件和参考基因组都存在且格式正确

3. 云端注释Token缺失

Could not find a 10x cloud token...
In order to enable cell annotation, run cellranger cloud auth setup...
  • ⚠️ 警告,但可忽略:这是关于可选功能的提示,说明未配置10x Genomics云端账号,无法使用自动细胞类型注释功能

运行了二十分钟就运行完了,然后输出了一些结果文件

结果文件简析

主要的结果文件都放在out文件夹里面

1. 过滤后的表达矩阵

文件/文件夹
内容说明
使用场景
filtered_feature_bc_matrix/ MEX格式

表达矩阵(三个文件组合)
– barcodes.tsv.gz: 细胞条形码(行名)
– features.tsv.gz: 基因信息(列名)
– matrix.mtx.gz: 表达量数据
最推荐

– 可直接导入Seurat/Scanpy
– 已去除空液滴和低质量细胞
filtered_feature_bc_matrix.h5 HDF5格式

的过滤后矩阵(单个文件)
编程读取更方便
– Python: scanpy.read_10x_h5()
– R: Seurat::Read10X_h5()

2. 📁 原始数据矩阵(质控参考)

文件/文件夹
内容说明
使用场景
raw_feature_bc_matrix/
MEX格式的原始矩阵(所有液滴)
文件结构与上面相同
– 重新进行自定义过滤
– 评估背景噪音水平
– 分析空液滴数据
raw_feature_bc_matrix.h5
HDF5格式的原始矩阵
同上,格式不同

3. 📈 质控与统计文件

文件名
内容说明
查看方式
web_summary.html 网页版质控报告

(最重要)
用浏览器打开
包含:细胞数、基因数、测序饱和度、双细胞比例等
metrics_summary.csv
质控指标的表格版
Excel或编程读取
便于批量比较多个样本

web_summary.html 是评估实验成败的第一手资料。

4. 🧬 分子与比对信息

文件名
内容说明
使用场景
molecule_info.h5
每个分子的详细信息(UMI、基因、细胞)
– 用Cell Ranger进行二次分析(如cellranger aggr
– 高级质控追溯
possorted_genome_bam.bam
比对到基因组的BAM文件(带细胞标签)
– IGV可视化查看比对情况
– 分析可变剪接
– 注意:文件巨大(通常几十GB)
possorted_genome_bam.bam.bai
BAM文件的索引
使用BAM文件时必须配套存在

结果中输出了bam文件,后续会基于这个文件去跑RNA velocity分析

web_summary.html结果理解

数据值理解:

指标名
截图数值
合格标准
解读
Estimated Number of Cells

(估计细胞数)
1,221
与预期相符
(您的是1k数据)
✅ 符合预期,捕获效率良好
Median Genes per Cell

(中位基因数)
3,290 >1,000

 合格
>3,000 优秀
✅ 优秀,细胞质量高
Median UMI Counts per Cell

(中位UMI数)
10,029 >5,000

 合格
✅ 测序深度充足
Total Genes Detected

(检测到的总基因数)
25,863 >20,000

 (人类)
✅ 基因捕获全面
Sequencing Saturation

(测序饱和度)
70.8% 50-80%

 理想
>90% 浪费
✅ 理想范围,测序深度恰到好处
Mean Reads per Cell

(每细胞平均读数)
54,547 >20,000

 合格
✅ 测序量充足
Fraction Reads in Cells

(细胞中读数比例)
95.6% >70%

 合格
>90% 优秀
✅ 优秀!背景噪音极低
Q30 Bases in Barcode 94.1% >85%
✅ 测序质量良好
Q30 Bases in RNA Read 90.2% >80%
✅ 测序质量良好

图形理解:之前单细胞常见图表的第一期,就是解析的细胞鉴定曲线图

  • ✅ 清晰拐点:图中细胞(高UMI)与背景(低UMI)界限分明
  • ✅ 背景线平坦:背景液滴信号低,说明实验干净
  • ✅ 细胞区陡峭:真实细胞信号强