npj Digital Medicine近期发表了一项研究,该研究利用支气管肺泡灌洗液(BALF)的宏基因组指纹图谱,结合微生物DNA/RNA特征与宿主转录组信号,区分肺癌和肺部感染。这项研究为肺部疾病的早期、准确诊断提供了新的方向。

研究背景

肺癌和肺部感染是全球面临的重大健康挑战,二者发病率高、死亡率高,给社会经济带来沉重负担。临床上,在缺乏快速、准确的组织病理学或微生物学检测结果的情况下,医生常常难以仅凭临床和影像学特征区分这两种疾病,导致误诊、延误治疗或不当治疗。多种病原体(如细菌、真菌、分枝杆菌等)引起的肺部感染,其临床症状(呼吸困难、咳嗽、咯血等)和影像学特征(结节、空洞、胸壁侵犯等)与肺癌有诸多相似之处,这使得鉴别诊断更具挑战性。因此,开发一种经济高效、所需样本量少、能够及时准确支持临床决策的方法,对于改善患者的治疗和管理至关重要。

近年来,宏基因组下一代测序(mNGS)技术发展迅速,能够在短时间内同时检测微生物和宿主的遗传物质。该技术已广泛应用于复杂感染性疾病的诊断,并在肺炎相关病原体的检测中表现出卓越的诊断准确性。更令人兴奋的是,通过分析mNGS检测中人源序列的转录组数据,有助于区分感染性疾病(如脓毒症、急性呼吸道感染、结核性脑膜炎)和非感染性疾病。基于mNGS数据产生的染色体不稳定性和肿瘤相关拷贝数变异(CNV)开发智能算法,有助于诊断恶性肿瘤。这些研究启发我们进一步思考,是否可以利用呼吸道样本的mNGS数据,建立一种整合基因组诊断方法,结合患者的微生物和宿主反应特征,从而在不增加诊断成本、只需少量样本、并在短时间内提供结果的情况下,区分可能与肺癌相似的肺部感染。

研究方法

本研究对402例临床患者的BALF样本进行了mNGS检测,这些患者包括肺癌患者和肺部感染患者。研究人员分析了来自宏基因组测序数据的微生物信息和宿主反应信息,并在此基础上建立和验证了一种整合宿主/微生物的、由宏基因组驱动的机器学习方法,用于肺癌和肺部感染的鉴别诊断。

具体研究方法包括:

1.患者队列建立:共纳入402例患者,包括123例肺癌患者和279例肺部感染患者。根据病原学结果,感染组进一步分为三个亚组:肺结核(n = 86),真菌感染(n = 79)和细菌感染(n = 114)(图1a)。

2.mNGS测序:对BALF样本进行DNARNA提取、文库构建和测序。DNA测序用于分析微生物和噬菌体的DNA相对丰度(DMA),RNA测序用于分析微生物和噬菌体的RNA相对丰度(RMA),以及宿主基因表达(GE)、转座因子表达(TEE)和免疫细胞组成(CC)。

3.数据预处理:使用Trimmomatic去除低质量和重复序列,以及接头污染。使用SNAP v1.0beta将人类序列排除,并使用SortMERNA v4.3.7去除核糖体RNA

4.微生物注释和分析:使用Kraken2 v.2.0.7Bracken v.2.5创建分类学谱,用于微生物群落结构比较和差异分类分析。利用BLAST将清理后的序列与包含26,159个噬菌体代表性基因组的噬菌体数据库(CPD)进行比对,进行噬菌体注释。

5.宿主基因表达分析:使用HISAT2将高质量数据与人类基因组hg38进行比对。使用FeatureCounts进行基因水平的定量。使用STARTEtranscripts软件估计转座因子的丰度,并进行差异表达分析。

6.免疫细胞组成分析:使用CIBERSORT算法估计宿主转录组中细胞类型的比例。

7.拷贝数变异(CNV)和肿瘤比例估计:使用ichorCNACNVkitestimate软件估计CNV和肿瘤比例。

8.机器学习模型构建:使用DMARMAGETEECCCNV数据,构建六个机器学习模型(Model I-VI),并使用LASSOSVMXGBoostRF四种分类器进行训练。使用10倍交叉验证进行模型训练和超参数调整。

9.模型评估和选择:根据受试者工作特征曲线(ROC)下面积(AUC)评估模型性能。选择在测试队列中表现最佳的模型。

10.临床规则整合:实施一种规则进入/规则排除策略(A rule-in/rule-out strategy),以提高诊断准确性。如果一般模型和至少一个亚组特异性模型预测为肺癌,则患者被分类为规则进入(确诊肺癌)。相反,如果一般模型和所有亚组特异性模型一致预测为肺部感染,则患者被分类为规则排除(排除肺癌)。由于模型之间的预测不一致,未能满足任何标准的患者被归类为不确定,表明分类信心较低,需要进一步的临床评估。

统计方法

· 使用“vegan”包计算微生物群落的α-多样性,包括Shannon指数、Simpson指数、Chao1指数和ACE指数。

· 使用PERMANOVA确定样本β-多样性的差异。

· 使用LEfSe评估每个组的微生物分类或噬菌体的差异。

· 使用DESeq2软件包对所有基因和TE进行标准化、校正批次效应,并计算每个组中的差异表达。

· 使用Mann-Whitney U检验比较潜变量和细胞比例的连续非参数数据。

· 使用Benjamini-Hochberg调整对潜在变量的多次检验的p值进行调整,显着性水平为0.05

· 使用mlr3glmnetsvm软件包在R 4.1.0中实施所有分析。

研究结果

该研究的主要结果包括:

【前沿】基于宏基因组指纹图谱区分肺部疾病:一项新的诊断策略

1.微生物群落结构差异DNA数据显示,肺癌和肺部感染的β-多样性存在显著差异(PERMANOVAR2 = 0.0067P = 0.002)(图2a)。RNA数据也显示出类似的差异(PERMANOVAR2 = 0.0205P = 0.001)。LEfSe分析显示,口腔/气道共生菌如S. oralisP. micraP. gingivalis在肺癌样本中显著富集,而病原体如M. tuberculosisP. aeruginosaA. fumigatusC. neoformans在肺部感染队列中更为常见(图2c)。

2.宿主免疫反应差异:基因集富集分析(GSEA)显示,差异表达基因(DEGs)在先天免疫途径(如T细胞受体信号传导和细胞因子细胞因子受体信号传导)中显著富集(图3a)。肺结核组的TB相关标志物GBP1GBP5水平显著升高,而肺癌组的趋化因子基因CCL7CCL8CCL13PPBP/CXCL7显著上调。

3.转座因子表达差异:在肺癌和三个感染组中发现了27个转座因子,其中LTR-ERVLTR6AHUERS-P3-int)水平在肺癌中显著升高。

4.免疫细胞丰度差异:计算分析显示,肺结核组的M1巨噬细胞显著升高(图4b),真菌感染、肺结核和肺癌组的M2巨噬细胞水平较高(图4c),细菌感染组的中性粒细胞富集(图4d),真菌感染组的单核细胞较高(图4e)。

5.CNV和肿瘤比例CNVkit显示,11号染色体(肺癌)和3号染色体(肺部感染)的CNV计数略有增加。ichorCNA估计的肿瘤比例在肺癌组为5.96%,在肺部感染组为6.29%,两组之间无显著差异。

6.机器学习模型性能Model VI在区分肺癌和肺部感染方面表现最佳(图5c–f),在区分肺癌和细菌感染(AUC = 0.847)、真菌感染(AUC = 0.872)和肺结核(AUC = 0.909)方面均表现出强大的性能。

7.复合预测模型:基于规则进入/规则排除策略的复合预测模型,在区分肺癌和细菌感染(准确率0.907)、真菌感染(准确率0.915)和肺结核(准确率0.896)方面均表现出较高的准确性(图6a–c)。

研究结论

本研究表明,基于BALF-mNGS数据的宿主/微生物宏基因组学建模,可以有效区分肺癌和肺部感染。整合微生物和宿主特征的Model VI表现出最佳的鉴别能力,而基于规则进入/规则排除策略(A rule-in/rule-out strategy)的复合预测模型进一步提高了诊断准确性。

不足之处

· 该队列未包括病毒性肺炎患者或合并感染的肺癌患者。

· 测试队列来自单一中心,限制了研究结果的普遍性。

研究的影响及借鉴意义

该研究提出了一种新的分析模型,整合了宿主和微生物特征,以支持mNGS结果的解释。该模型可以在患者接受BALF mNGS检测期间(从样本处理到24小时内报告结果),提供基于概率的肺癌和肺部感染区分,有助于在等待组织病理学或其他诊断结果期间辅助临床决策。此外,该模型显示出区分感染亚型的潜力,这可能有助于指导抗菌治疗策略。由于该模型建立在标准mNGS数据之上,因此与现有工作流程兼容,并有望在未来集成到信息系统或分析流程中,从而有助于将mNGS从病原体检测工具转变为包含微生物和宿主信息的精确诊断平台,从而提高其在现实临床环境中的实用价值。总体而言,该模型代表了一种初步探索,需要更大和更多样化的临床数据集进行进一步验证,以确定其更广泛的适用性和临床效用。

展望

未来的研究可以:

· 纳入更多类型的肺部疾病,如病毒性肺炎和合并感染的肺癌。

· 扩大研究队列,纳入来自不同中心的患者,以提高研究结果的普遍性。

· 进一步优化模型,提高诊断准确性和鲁棒性。

· 探索将该模型整合到临床工作流程中的可行性。

· 研究该模型在指导治疗决策方面的潜力。

Han D, Liu C, Yang B, Yu F, Liu H, Lou B, Shen Y, Tang H, Zhou H, Zheng S, Chen Y. Metagenomic fingerprints in bronchoalveolar lavage differentiate pulmonary diseases. NPJ Digit Med. 2025 Oct 7;8(1):599. 

https://pubmed.ncbi.nlm./41057624/