要点梳理:
1️⃣ 结核病存在多维疾病谱(如细菌负荷、解剖分布、炎症强度与就医能力差异),检测的灵敏度和特异度本质上反映的是它能识别疾病谱的哪一部分,而非识别所有结核病患者。
2️⃣ 多项检测的结果往往针对疾病谱的相似维度而产生相关性,因此在多步骤筛查路径中,其组合性能主要受制于这些检测所覆盖的疾病谱片段的重叠关系,而不只是各检测单项指标的高低。
3️⃣ 准确性目标与评估应紧扣预期使用场景(特定人群、检测路径及优先级患者),否则相同的“90%敏感度”在不同策略中可能意味着完全不同的临床与公共卫生价值。
题目:结核病检测对象及其重要性:对诊断路径的启示
摘要:
结核病具有多样化的特征谱,包括细菌负荷、临床严重程度和就医可及性,这些都与临床和流行病学结局以及诊断检测的性能密切相关。诊断检测的价值不仅取决于其数值准确性(在不同人群中可能差异显著),还在于其能够识别哪些患有或未患结核病的人群。此外,结核病的可检测特征,如病原体负荷或宿主反应,通常是相互关联的,这使得仅凭单个检测的准确性难以预测诊断路径的准确性和效果。因此,在评估新型结核病诊断方法时,应更深入地考虑其检测的疾病谱段、这些谱段在不同检测间的重叠情况以及检测优先级的确定。理解这些关系对于筛查尤为关键,因为筛查旨在检测广泛的疾病谱,并且通常采用多步骤路径。我们提出了一个框架,将检测和路径的敏感度和特异度解释为疾病谱不同子集之间的一致程度。基于此框架,我们针对诊断准确性的测量、报告、目标设定和解读提出了建议,以指导新型检测的开发和现有诊断方法的优化应用。
引言
在全球范围内持续减轻高负担结核病的努力中,诊断方法的局限性仍然是一个主要障碍。患者可能患结核病一年或更长时间,在诊断前常花费数月寻求症状诊疗。据估计,有25%的结核病例从未被诊断或报告。当前诊断方法不足的一个主要原因是,结核病并非单一疾病实体,而是存在于一个多维度的疾病谱中。结核病可以从完全的肺外疾病,到易于通过痰涂片镜检检测的类型。在临床上,很大一部分患有结核病的人是无症状的,而另一些人的症状从轻微到感到衰弱 debilitating不等。在免疫学上,某些人对结核分枝杆菌(Mycobacterium tuberculosis)的反应非常强烈,而另一些人则几乎察觉不到。在社会层面,一些结核病患者能够方便地获得高质量的诊断基础设施,而另一些人则面临巨大的就医障碍。许多这些维度也受到合并症和年龄的影响。
目前正在进行多项努力,其中一些已取得有希望的早期成果,旨在开发使结核病筛查和诊断更易于获得的检测方法。这些方法包括更接近即时检测(point-of-care)的测试、使用更易获得的样本类型、降低检测和平台成本,以及改善肺外和少菌结核病的检测。然而,目前对这些新型检测的许多思考和指导仍然基于准确性的数值估计(即敏感度和特异度),这些估计隐含地忽略了结核病的多维度疾病谱。例如,最近更新的结核病诊断检测目标产品概况(TPPs)和计划中的筛查检测TPPs承认了不同的使用场景,但仍设定了不变的敏感度和特异度数值目标。同样,在潜在筛查或诊断检测(如数字胸部X光、C反应蛋白、舌拭子分子检测和咳嗽声特征)的早期临床评估中,满足固定敏感度和特异度基准一直是主要关注点。数值基准的准确性可能会掩盖诊断结果对检测所用人群和环境以及其与配对的其他检测的依赖性。
随着结核病检测工作变得更加主动,并扩展到更广泛的医疗保健和社区环境,它们遇到了更广泛的疾病谱,并使用了不断增加的新型检测和潜在的多重检测路径。随着这些进展,以一种能够适应不同人群、检测组合和诊断目标的方式理解准确性变得越来越重要。在这篇个人观点中,我们认为将敏感度或特异度估计解释为待评估检测结果与配对的其他检测或人群选择机制结果之间的一致程度(以潜在疾病谱为背景)是有帮助的。随后,我们确定了表征、报告和建模检测准确性及其相关性的最佳实践,旨在提高对检测性能与疾病谱之间关系的理解,并促进改进检测路径的设计和更具影响力的检测方法的开发。尽管这些考虑适用于任何情况下的结核病诊断,但对于基于人群的筛查尤其相关,因为筛查的疾病谱特别广泛,检测路径通常是多步骤的,并且许多可用的检测性能数据是从有症状、寻求诊疗人群的准确性研究中推断出来的。尽管我们的重点是结核病诊断的检测和路径,但所讨论的许多考虑也适用于潜伏性结核分枝杆菌感染的检测以及其他具有异质性表型和诊断不确定性的疾病。
敏感度和特异度代表疾病谱的比例
诊断检测的灵敏度和特异性通常被概念化为随机概率,即一群仅在有无疾病方面存在差异的同质人群,偶然会被分配阳性或阴性的检测结果。然而,实际上,人们的可检测性范围由其疾病特征决定。撇开实验室变异源不谈,诊断测试可以识别出疾病特征超过特定可检测性阈值的个体。这个阈值——而不是任何灵敏度和特异性的数值估计——代表了诊断检测的真实特征。对于任何给定的检测,可检测性阈值会影响其在不同人群中的准确性、其补充其他测试的能力以及其临床和流行病学影响。
可检测性谱通常与结核病疾病谱的一个或多个维度对齐(图1)。例如,结核病可能与不同程度的细菌负荷、不同程度的解剖定位与播散以及不同程度的宿主炎症反应相关。许多结核病诊断检测——包括痰涂片镜检和培养、各种痰快速分子检测以及新型舌拭子分子检测——旨在检测呼吸道中的结核分枝杆菌。这些检测的敏感度取决于结核病患者中呼吸道结核分枝杆菌负荷超过检测限的比例。其他检测旨在检测宿主对结核分枝杆菌的反应,包括非特异性炎症反应(如C反应蛋白)、特异性抗原识别(如伽马–干扰素释放试验,主要用于诊断暴露和感染)或对结核病和活动性疾病状态具有一定特异性的转录组学特征。基于这些生物标志物的检测的敏感度取决于结核病患者中宿主反应超过阈值水平的比例。其他维度也影响可检测性谱——例如,胸部X光检测宏观病理变化,尿液脂阿拉伯甘露聚糖(LAM)检测其他解剖部位的细菌成分。除了纯粹的生物学因素,就医能力(受社会经济因素影响)和提供诊断样本(如痰)的能力也是识别哪些结核病患者可被特定检测识别的额外维度。
疾病谱的不同片段具有不同的健康后果
理想的诊断检测能够检测所有结核病患者(并排除所有未患病者)。然而,实际准确性并不完美,并且经常与其他目标相冲突。例如,高度敏感的实验室检测可能不如敏感度较低的即时检测具有更广泛的覆盖范围。因此,在设定准确性目标时,重要的是要考虑是否应优先检测某些结核病患者。具体而言,检测相同数量的结核病患者可能会带来不同的临床和公共卫生效益,这取决于被检测者的特征——包括他们的传播潜力、如果漏诊的死亡或严重临床后遗症风险,以及就医可及性(图1)。
例如,检测呼吸道中结核分枝杆菌的检测方法可能在旨在限制社区内(空气传播)传播的主动病例发现活动中特别有用。相比之下,检测播散性细菌(例如尿液LAM)或测量非特异性但潜在有害的宿主反应(例如C反应蛋白)的检测,可能更有效地识别出晚期疾病患者,这些患者将受益于早期诊断和治疗。
多步骤路径中与疾病谱的相关相互作用
检测通常是组合使用的,诊断结果和影响取决于多个检测的综合性能。在诊断有症状患者的结核病时,可以并行组合互补检测以提高敏感度(例如,同时使用痰分子检测和尿液LAM)。在对无症状人群进行结核病筛查时,多重检测路径尤为常见,检测通常按顺序应用(作为筛查和确诊步骤)以提高特异度。一项新的结核病筛查试验TPPs也考虑了具有多个顺序筛查路径。
由于检测准确性反映了检测疾病表现的能力,不同的结核病检测通常会产生相关联的结果。当检测针对相似的疾病维度时,这种相关性尤其强烈;例如,旨在检测呼吸道中结核分枝杆菌的检测具有不同的敏感度,但结果高度相关。即使在检测看似不相关的疾病表现的检测之间,也可能存在显著的相关性,反映了疾病过程的不同维度。例如,尽管存在相当大的异质性,但痰中结核分枝杆菌负荷较高的人平均而言也往往具有更晚期的肺部病理变化和更强的宿主反应。说明性研究表明,这些相关性导致非痰液筛查检测在痰杆菌负荷较高的人群中敏感度高于痰杆菌负荷较低的人群(按半定量Xpert MTB/RIF Ultra [Xpert]分类):转录组学宿主反应特征为97%对69%,标准C反应蛋白截止值为91%对47%,基于人工智能的胸部X光解释路径为96%对82%。
这些相关性可能是检测组合整体准确性的重要决定因素。尽管通常假定每个检测步骤都是独立的,但正相关会增加顺序检测路径的敏感度并降低其特异度,而在并行检测中则产生相反的效果(图2)。例如,一种常见的病例发现方法是基于症状或胸部X光(或两者)进行筛查,然后进行确诊性痰液检测。在具有培养阳性结核病的代表性流行病学调查中,42%的人筛查症状阳性,41%的人涂片阳性。如果痰涂片结果和症状是独立的,预计17%(0.42 × 0.41)的结核病患者会同时有症状和涂片阳性。然而,由于涂片状态和症状之间存在适度相关性,这一比例为22%——大约高出1.3倍。因此,在评估用于路径的检测时,表征可能组合使用的不同检测之间的相关性非常重要。

相关性决定疾病谱偏倚和参考标准的重要性
与顺序检测路径中的筛查检测类似,选择检测人群的过程通常会优先选择来自疾病谱特定片段的个体。这种选择可能导致诊断疾病谱偏倚,其程度取决于检测人群中疾病谱所代表的片段与检测可检测片段之间的重叠程度。结核病中疾病谱偏倚的可能性尤其高,因为选择诊断研究人群的常见方法——例如,招募因结核病样症状就诊诊所或医院的个体——往往与诊断中使用的疾病谱维度(包括细菌负荷和炎症反应)高度相关。因此,当将检测应用于症状较少的人群(例如在社区筛查中)时,敏感度可能会大幅下降。
尽管用于比较的参考标准不影响检测的实际临床性能,但它影响对该性能的评估,并可能强烈影响检测准确性的估计。更严格的参考标准——特别是如果它们与正在评估的检测相关——可能会导致更高的数值敏感度估计。这种依赖性对于结核病尤其重要,因为难以定义一个能够准确分类疾病的全部微生物学和临床异质性的参考标准。因此,将参考标准与检测旨在检测的疾病谱片段对齐可能是有利的。根据具体情况,基于痰培养的参考标准可能过于宽泛或过于严格。例如,基于痰培养的参考标准可能会低估某种检测(如尿液LAM)的准确性,其附加价值主要在于其检测肺外或播散性疾病的能力,而这些疾病通常痰培养阴性。相反,对于在实践中将由敏感度低于培养的确认性检测(例如,将由痰分子确认的筛查检测)后续的检测(Conversely, for assays intended to be followed in practice by a confirmatory test less sensitive than culture (eg, a screening test that will be followed by sputum molecular confirmation)),以培养作为金标准会低估其价值,因为培养能检出分子检测可能遗漏的少菌量病例,从而造成“过度惩罚”。
图3说明了敏感度估计对人群和参考标准的依赖性。我们考虑了一种假设的新型检测(以低成本、即时舌拭子为模型),该检测优先考虑可及性而非敏感度,并假设其检测呼吸道中的结核分枝杆菌水平与中度或更高半定量Xpert结果相对应。图3显示,在所有结核病人群中,新型检测、痰Xpert和痰培养可检测的子集(由较大的重叠圆圈表示)。这些子集叠加在结核病总人群上,同时显示了在两种可能的选择过程下将进行检测的人群:全人群范围的任何咳嗽筛查或仅检测因(通常较重)症状就医的个体。根据诊断准确性研究和流行病学调查的信息估计,新型检测仅能检测出一般人群中所有培养阳性结核病的33%。然而,由于呼吸道细菌负荷(检测的基础)与症状相关,新型检测对咳嗽筛查阳性个体的培养阳性结核病的敏感度显著更高(55%),对寻求症状诊疗的个体则更高(68%)。图3还说明,当相对于培养而非Xpert作为参考标准时,新型检测的敏感度估计值较低(在寻求症状诊疗的个体中为68%对80%),如果与更全面的参考标准相比,则会更低。因此,如果该检测用于筛查寻求症状诊疗的个体(阳性结果由Xpert确认),其在此情境下的敏感度可能为80%,而非在整个人群中相对于培养估计的33%。
人群选择和检测相关性影响特异度
检测特异度也取决于被检测人群以及与其他检测的相关性。结核病筛查或诊断检测在未患结核病的人群中呈现阳性结果有几个原因。尽管其中一些原因(如实验室污染或错误)可能不涉及被检测个体,但大多数可以被解释为在不限于结核病的更广泛疾病谱中的适当结果。例如,在使用X光、炎症标志物或痰分子检测时,被归类为结核病假阳性结果(即,即使检测准确测量了其目标,但仍错误分类了结核病状态的结果)可能反映了高度的肺部病理变化、与结核病无关的全身疾病或既往结核病或暴露。
所谓假阳性背后的机制通常在不同检测之间是相关的。例如,非结核性肺部感染可以同时引起呼吸道症状、异常胸部X光表现和C反应蛋白水平升高。相关性对多重检测路径特异度的影响与其在结核病疾病谱中对敏感度的影响类似:相关性改善了并行检测的组合特异度(因为没有结核病的人中阳性结果较少),但不利于顺序筛查路径的特异度(因为在没有结核病的人中,筛查和确认性检测步骤的阳性结果重叠增加)。图4通过一个典型的胸部X光后接分子检测的两步筛查路径说明了这些发现。既往治疗或已治愈的结核病可能增加筛查胸部X光阳性结果的概率(由于结核后肺病)以及确认性结核病分子检测阳性结果的概率(由于痰样本中残留的DNA)。因此,既往结核病在筛查和确认步骤的特异度之间产生了相关性,导致组合特异度低于预期(如果两个检测是独立的)。
结核病假阳性背后的机制在不同人群中有所不同,导致检测特异度相应变化。例如,在培养阴性个体中,Xpert Ultra在寻求诊疗的患者中比在一般人群中产生更多的阳性结果。一个可能的解释是,Xpert阳性的来源(例如,先前已治愈的结核病)与呼吸道症状相关。因此,将基于临床的特异度估计应用于低流行率环境可能导致阴性预测值下降幅度小于仅基于流行率所预期的。因此,准确估计路径的特异度需要直接测量相关检测在相关检测人群中特异度之间的相关性,或者表征目标人群中阳性结果的来源并相应估计联合特异度。
启示和建议
结核病筛查和诊断检测的灵敏度和特异性的估计取决于多项检测步骤和患者选择过程在潜在疾病谱的一个或多个维度上的一致性程度。即使是单独使用的检测,灵敏度也取决于检测检测出检测人群和参考人群中均包含的结核病谱片段的能力。对于涉及两项或多项检测的算法,灵敏度还取决于检测检测出疾病谱重叠片段的程度。与总体结核病人群相比,高优先级亚组的灵敏度可能有所不同。同样,多重检测路径的特异性取决于阳性的潜在机制、其在受检人群中的患病率以及这些机制在不同检测之间的重叠程度。正如如下所总结的,这些谱系和背景依赖性对于结核病诊断检测准确性的评估、报告和建模具有重要意义。
首先,诊断准确性研究中纳入的患者往往不具有一般人群的代表性。因此,研究设计应促进将研究结果推广到其他人群,例如,这些人群可能症状较少、就医可及性较低或难以提供痰液。通过表征检测性能与个体特征和其他检测结果之间的关系,可以帮助实现这种推广。对于在实践中可以一起使用的检测,在相同个体中同时进行评估可为检测相互作用提供最清晰的见解,并可为优化准确性和资源效率的检测组合和截止值设置的检测路径设计提供信息。重要的是,在多个维度上表征研究人群中的疾病有助于将结果推广到潜在人群和检测路径。这可以通过评估新型检测以及少量已建立、特征明确、低成本的检测(即比较检测)来实现,这些检测反映了疾病维度,如细菌负荷和临床严重程度。结果应尽可能以定量尺度记录(例如,Xpert循环阈值或液体培养阳性时间用于细菌负荷;定量C反应蛋白用于宿主炎症反应;计算机辅助检测评分用于放射学范围),以允许探索不同的诊断截止值并促进更精细地映射到患者人群。检测应在相同个体中、同时、最好在同一样本上进行头对头评估。
其次,为了最大限度地提高诊断研究的价值,研究人员应提供比通常更详细的报告结果。例如,准确性估计可以按疾病严重程度和结核分枝杆菌细菌负荷等指标进行分层,并使用多向表格或亚组分析呈现,以反映可能的检测组合和使用案例。这种增强的详细程度将促进研究之间的比较,支持将研究结果推广到新的人群和检测路径,并能够根据参考标准(如痰分子检测)评估检测,这些参考标准虽然不如基于培养和复合参考标准敏感,但可能更好地反映实际使用情况。此外,在发表时提供个体层面数据将允许根据多个疾病指标进行重新加权,以便在推断结果时提供更大的灵活性和价值,用于后续研究和应用。
第三,在设定和传达准确性目标(例如,在TPPs中)时,专家和政策制定者应通过明确定义预期检测场景和目标人群来明确考虑疾病谱。例如,一个报告为90%敏感的筛查检测可以有不同的解释:它可以检测所有流行结核病例的90%,现有筛查检测可检测到的结核病例的90%(例如,有症状或X光阳性个体),或者在确认步骤中将检测阳性的结核病例的90%——当检测是分步路径的一部分时,这个指标与组合敏感度最相关。此外,TPPs可以为高优先级亚组设定单独的准确性目标,以指导开发具有增量价值的新型检测。这些高优先级亚组可能包括细菌负荷高、合并症风险高或结核病难以明确诊断的人群,例如儿童。对于旨在用于多重检测路径的检测,高优先级亚组也可以根据其他检测进行定义——例如,优先考虑在顺序路径中得到确认或在并行路径中增加阳性率的真阳性结果。对于在实践中将由敏感度低于培养的分子检测后续的筛查检测,TPPs应考虑相对于同一敏感度较低的检测设定敏感度目标,这不仅表明筛查检测对所有结核病例应达到至少70%的敏感度,还应表明它应检测到至少90%的痰分子检测阳性病例。最相关的参考标准不一定是范围最广的,而是与预期用途一致或识别具有高度临床或公共卫生相关性的目标人群的参考标准。
最后,解释诊断准确性数据的人员,包括诊断干预措施的建模人员,在直接将准确性估计值应用于不同人群或假设不同检测独立运行时应谨慎。当对特定人群或检测情境缺乏经验数据时,可以根据关键协变量(例如,症状流行率、合并症存在、细菌负荷水平,具体取决于检测机制)的差异调整来自其他环境的准确性估计值,这些协变量可能会影响性能。此外,在建模诊断路径时,考虑检测相关性很重要。一种方法是分步表示检测,并使用经验数据来估计由早期检测步骤结果定义亚人群中的敏感度和特异度。
没有方法是完美无缺的,明确解决结核病诊断的复杂性可以带来性能改进的路径。作为最后一个例子,基于舌拭子的分子检测代表了一种新的即时检测工具,可以纳入主动病例发现工作中。当在一般人群中根据培养参考进行评估时,舌拭子检测的敏感度可能低于最佳水平(尽管高于痰涂片镜检),不适用于常规筛查中确定性排除疾病的作用。此外,在有症状、寻求诊疗的人群中评估时,特异度可能显得降低。然而,这些检测在几种可能的筛查路径中可能具有高价值。作为两步路径的第一步,其中舌拭子阳性结果由痰Xpert或另一个舌拭子确认,舌拭子筛查将与确认检测具有良好的相关性,从而最大限度地提高路径的敏感度,尽管每个组成检测的敏感度欠佳。此外,舌拭子筛查对高度传染性结核病也具有高敏感度,具有良好的可负担性和更高的可及性。这些优势可能优先于相对于培养的敏感度,并且对基于舌拭子检测的评估应考虑到这种优先排序。或者,舌拭子可以在具有胸部X光和定量计算机辅助检测评分读数的筛查步骤的路径中作为确认性检测提供价值。在此作用中,舌拭子将确认大多数可通过痰Xpert检测到的结核病例,消除痰液产生的需求(可能提高整体诊断产出),并且对于计算机辅助检测评分较低的个体,尽管其敏感度适中,仍可提供足够的阴性预测值。同时,为了提高路径敏感度,应优先对计算机辅助检测评分最高的个体进行痰Xpert检测——可以立即进行,也可以在舌拭子结果阴性后进行。舌拭子的第三种选择是将其作为主动病例发现的独立检测。筛查路径通常需要至少两步以确保足够的组合特异度。然而,考虑到筛查背景下预期的高特异度,一种可普遍负担的分子检测在结核病高负担人群中也可能提供足够的阳性预测值,用于独立筛查。
结论:将检测置于语境中以最大化其影响
开发新型诊断检测的目标是增加临床和公共卫生的增量价值。为实现这一目标,检测需要准确,并且其准确性应在其预期使用环境(包括流行病学背景和诊断路径)中进行评估和解释。特别是对于结核病筛查,其中检测应用于广泛的疾病谱和多步骤路径中,对准确性进行情境敏感的考虑需要理解检测如何与疾病谱的多个维度相互作用。关键方面包括明确指定准确性估计中的人群和参考标准,考虑并建模相关性如何影响路径准确性,以与检测预期用途一致的方式定义准确性目标,以及设计研究以生成和报告关于检测相关性和相互作用的高质量数据,以支持特定人群和特定路径的准确性估计。这些行动可以促进开发更高效和有影响力的结核病诊断路径,帮助弥合诊断差距并减轻全球结核病负担。
Kendall EA, Denkinger CM, Cattamanchi A, Dowdy DW, Andrews JR. Whom tuberculosis tests detect and why it matters: implications for diagnostic algorithms. Lancet Microbe. 2025 Oct 17:101237.