随着人们数据处理能力的提升以及计算机视觉、机器学习等技术的不断创新,基于这些技术的临床预测模型在医学影像领域的应用日益广泛。这些模型能够充分融合医学影像数据与临床数据,辅助医生在疾病诊断、预后评估和个性化治疗中做出更加精准的决策。然而,如何科学、准确地评估这些模型的性能,并确保其在实际临床环境中的可靠性和有效性,已成为研究者亟需解决的重要课题。作为衡量模型表现的核心工具,评价指标在这一过程中发挥着至关重要的作用。
在介绍评估指标之前,我们首先需要理解混淆矩阵这一基本概念。混淆矩阵为我们提供了模型预测结果与真实标签之间的详细对比,从中我们可以计算出多种常用的评估指标。因此,掌握混淆矩阵的构成和含义,是理解和计算各类评估指标的基础和前提。
我们可以将常见的评价指标分为三个主要类别:诊断性实验常用的评价指标、模型预测结果评价指标以及衡量模型性能的评价指标。这三类指标各有侧重点,分别用于评估不同的目标和维度,从而为模型的全面分析提供支持。
需要注意的是,部分评估指标在不同领域或应用场景中可能有不同的名称。例如,精确率(Precision) 有时也被称为查准率/阳性预测值(Positive Predictive Value),召回率(Recall)也常被称为灵敏度(Sensitivity)等等。因此,尽管这些指标的名称有所不同,但它们的核心定义和计算方法通常是相同的。理解这些指标的含义和应用场景,对于全面评估模型至关重要。
诊断性实验常用的评价指标
诊断性实验常用的评价指标主要关注检测疾病的能力,帮助临床医生评估模型在实际诊断中的表现。
模型预测结果评价的指标
模型预测结果评价的指标侧重对模型具体预测行为的评估,关注正类、负类预测的精度和覆盖度,以及模型在不同阈值下的表现。
衡量模型性能的评价指标
衡量模型性能的评价指标注重模型整体或综合层面的表现,考虑多类别、多维度一致性及对不平衡数据的适应能力。
如何选择评估指标?
不同场景、不同疾病以及不同模型目标,都会影响评估指标的取舍。选择合适的评估指标至关重要。以下几点可供参考:

关注漏诊风险时,优先选择灵敏度(Sensitivity)
漏诊意味着极高的疾病风险或后果(如癌症早期筛查、传染性疾病检测),我们希望最大程度地发现所有阳性病例,这时“灵敏度”是核心指标。
关注误诊成本时,优先关注特异性(Specificity)和精确率(Precision)
如果误诊会导致侵入性检查、昂贵治疗或病人过度紧张、过度治疗,则需要尽量减少假阳性。特异性高(Specificity)或精确率高(Precision)的模型能够减少假阳性案例的出现,从而避免医疗资源和患者精力的不必要消耗。
需要综合平衡性能时,考虑F1分数(F1-Score)、AUC-ROC等综合指标
在需要整体把握模型表现的场景下,“F1分数”能同时平衡考虑精确率和召回率。AUC-ROC可以展示所有可能的阈值,选择合适的临床阈值点。
关注风险评估和预后预测时,重点考虑模型的校准能力(Calibration)
对于疾病风险预测、预后评估等问题,模型输出的概率要能真实反映患者的患病(或事件发生)概率,此时需要在意模型“校准曲线(Calibration Curve)等,一个模型即使AUC-ROC很高,如果预测概率本身严重失真,那么在实际临床决策上仍可能存在较大偏差,影响医生和患者的判断。
结合临床场景选择指标并进行多维度评估
在医学中,任何单一指标都不足以全面评价模型的好坏,往往需要多种指标并行考量。
例如在肺部结节检测中,可以同时观察“检出率”“误检率”“假阴率”等;在肿瘤预后预测中,不仅要关注区分能力(AUC),也要检查预测概率的可信度(校准曲线)。
理解模型评估指标的本质,不仅能够科学评估模型表现,还能有效避免因指标选择不当导致的误判或资源浪费。在实际应用中,评估指标的选择必须与具体的临床需求和业务场景紧密结合。只有明确应用目标,灵活调整评估策略,才能在灵敏度与特异性、诊断效率与医疗成本之间找到最佳平衡点,从而让模型真正服务于临床决策,提高医疗实践的精准性和可靠性。
END
2025.01.21