cellranger count参数设置与结果解读

写在开头

上期给大家整理了一下10x单细胞分析第一步：Cell Ranger下载+配置，这期就一起来看看怎么分析数据叭！

需要下载的数据及软件主要有三个，在cellranger下载安装与配置有分享过下载地址：

cellranger软件

pbmc_1k_v3_fastqs测序数据

PBMC：外周血单个核细胞（Peripheral Blood Mononuclear Cells）包含淋巴细胞（T细胞、B细胞）、单核细胞等，是免疫学研究中最常用的样本类型

refdata-gex-GRCh38参考基因组

10x Genomics官方提供的预构建参考基因组包，专门用于人类单细胞基因表达分析。

GRCh38：人类基因组版本Genome Reference Consortium Human Build 38

文件都会比较大，下载或者上传都需要一定时间，下载下来的是tar.gz或者tar的压缩文件，使用tar命令解压开来即可！

cellranger对于使用的fq文件有一些命名的要求，不过pbmc的示例数据已经给我们整理好了的。如果后续下载公共数据集，就需要进行一些相应的整理。

cellranger count命令简析

需要用到的命令是cellranger count！

cellranger count 是 10x Genomics 单细胞分析流程中的核心命令，用于处理单个样本和单个GEM孔（Gel Bead-in-Emulsion well）的原始测序数据，生成基因表达和/或特征条形码（Feature Barcode）的定量结果。

根据官方文档，运行 cellranger count 至少需要以下参数：

cellranger count 
  --id=<运行ID> 
  --transcriptome=<参考基因组路径> 
  --fastqs=<FASTQ文件路径> 
  --sample=<样本名>

关键参数说明：

--id：必需，输出文件夹名称
--transcriptome：必需，预构建的参考转录组路径（如GRCh38）
--fastqs：包含由cellranger mkfastq或bcl2fastq生成的FASTQ文件的目录
--sample：用于识别样本特定的FASTQ文件（文件名前缀）
--localcores：限制使用的CPU核心数（默认使用全部核心）
--localmem：限制使用的内存（GB）

在之前菜鸟团的推文——玩转服务器 — 运行Cell Ranger你必须知道的两个参数也提到过，--localcores以及--localmem这两个参数。

因为默认是使用全部的CPU核心数，所以不论是课题组的服务器还是共享服务器，还是要稍微注意下，不要调用全部的，容易被管理员kill掉任务。

运行cellranger

将需要的软件及数据解压开来之后，就可以运行cellranger count啦！

cellranger count 
--id run_pbmc_1k_v3_fastqs 
--create-bam true 
--transcriptome refdata-gex-GRCh38-2024-A/ 
--fastqs pbmc_1k_v3_fastqs/ 
--nosecondary 
--localcores 16 
--localmem 64

1. 程序启动信息

Martian Runtime - v4.0.13
Serving UI at http://staru05-server:45995...
Running preflight checks (please wait)..

✅ 正常：显示运行环境版本，并启动了网页监控界面（可复制链接到浏览器实时查看进度）
✅ 正常：正在执行运行前的系统检查

2. 预检过程（正常）

Checking sample info...
Checking FASTQ folder...
Checking reference..

✅ 正常：这是Cell Ranger在正式分析前对输入数据的三项关键验证，确保样本信息、FASTQ文件和参考基因组都存在且格式正确

3. 云端注释Token缺失

Could not find a 10x cloud token...
In order to enable cell annotation, run cellranger cloud auth setup...

⚠️ 警告，但可忽略：这是关于可选功能的提示,说明未配置10x Genomics云端账号，无法使用自动细胞类型注释功能

运行了二十分钟就运行完了，然后输出了一些结果文件

结果文件简析

主要的结果文件都放在out文件夹里面

1. 过滤后的表达矩阵

文件/文件夹	内容说明	使用场景
`filtered_feature_bc_matrix/`	MEX格式表达矩阵（三个文件组合） – `barcodes.tsv.gz`: 细胞条形码（行名） – `features.tsv.gz`: 基因信息（列名） – `matrix.mtx.gz`: 表达量数据	最推荐 – 可直接导入Seurat/Scanpy – 已去除空液滴和低质量细胞
`filtered_feature_bc_matrix.h5`	HDF5格式的过滤后矩阵（单个文件）	编程读取更方便 – Python: `scanpy.read_10x_h5()` – R: `Seurat::Read10X_h5()`

文件/文件夹

内容说明

使用场景

filtered_feature_bc_matrix/

MEX格式

表达矩阵（三个文件组合）
– barcodes.tsv.gz: 细胞条形码（行名）
– features.tsv.gz: 基因信息（列名）
– matrix.mtx.gz: 表达量数据

最推荐

– 可直接导入Seurat/Scanpy
– 已去除空液滴和低质量细胞

filtered_feature_bc_matrix.h5

HDF5格式

的过滤后矩阵（单个文件）

编程读取更方便
– Python: scanpy.read_10x_h5()
– R: Seurat::Read10X_h5()

2. 📁 原始数据矩阵（质控参考）

文件/文件夹	内容说明	使用场景
`raw_feature_bc_matrix/`	MEX格式的原始矩阵（所有液滴）文件结构与上面相同	– 重新进行自定义过滤 – 评估背景噪音水平 – 分析空液滴数据
`raw_feature_bc_matrix.h5`	HDF5格式的原始矩阵	同上，格式不同

3. 📈 质控与统计文件

文件名	内容说明	查看方式
`web_summary.html`	网页版质控报告（最重要）	用浏览器打开包含：细胞数、基因数、测序饱和度、双细胞比例等
`metrics_summary.csv`	质控指标的表格版	Excel或编程读取便于批量比较多个样本

文件名

内容说明

查看方式

web_summary.html

网页版质控报告

（最重要）

用浏览器打开
包含：细胞数、基因数、测序饱和度、双细胞比例等

metrics_summary.csv

质控指标的表格版

Excel或编程读取
便于批量比较多个样本

web_summary.html 是评估实验成败的第一手资料。

4. 🧬 分子与比对信息

文件名	内容说明	使用场景
`molecule_info.h5`	每个分子的详细信息（UMI、基因、细胞）	– 用Cell Ranger进行二次分析（如`cellranger aggr`） – 高级质控追溯
`possorted_genome_bam.bam`	比对到基因组的BAM文件（带细胞标签）	– IGV可视化查看比对情况 – 分析可变剪接 – 注意：文件巨大（通常几十GB）
`possorted_genome_bam.bam.bai`	BAM文件的索引	使用BAM文件时必须配套存在

结果中输出了bam文件，后续会基于这个文件去跑RNA velocity分析

web_summary.html结果理解

数据值理解：

指标名	截图数值	合格标准	解读
Estimated Number of Cells (估计细胞数)	1,221	与预期相符 (您的是1k数据)	✅ 符合预期，捕获效率良好
Median Genes per Cell (中位基因数)	3,290	>1,000 合格 >3,000 优秀	✅ 优秀，细胞质量高
Median UMI Counts per Cell (中位UMI数)	10,029	>5,000 合格	✅ 测序深度充足
Total Genes Detected (检测到的总基因数)	25,863	>20,000 (人类)	✅ 基因捕获全面
Sequencing Saturation (测序饱和度)	70.8%	50-80% 理想 >90% 浪费	✅ 理想范围，测序深度恰到好处
Mean Reads per Cell (每细胞平均读数)	54,547	>20,000 合格	✅ 测序量充足
Fraction Reads in Cells (细胞中读数比例)	95.6%	>70% 合格 >90% 优秀	✅ 优秀！背景噪音极低
Q30 Bases in Barcode	94.1%	>85%	✅ 测序质量良好
Q30 Bases in RNA Read	90.2%	>80%	✅ 测序质量良好

图形理解：之前单细胞常见图表的第一期，就是解析的细胞鉴定曲线图

✅ 清晰拐点：图中细胞(高UMI)与背景(低UMI)界限分明
✅ 背景线平坦：背景液滴信号低，说明实验干净
✅ 细胞区陡峭：真实细胞信号强

微精选