在构建临床预测模型的过程中,有时候可能会出现模型在开发数据集上显示出极高的预测准确性,但在新数据集上可能会大打折扣,尤其是当这些新数据来自不同的人群或环境时。因此为了更好的在临床实践中应用,提高模型的泛用性,就需要对模型进行充分的验证,以确保其在实际应用中的有效性和可靠性。顶刊《BMJ》也发表了关于预测模型验证的相关指南性文章“Evaluation of clinical prediction models (part 1): from development to external validation”,小编就依照这篇文章思路为大家进行讲解。

模型的内部验证

在模型开发阶段,研究人员需要综合考虑数据的可用性、结构(例如多数据集、多中心)和规模,以决定如何最有效地利用现有数据来开发临床预测模型,并以公正、无偏见且信息全面的方式评估其性能。当评估过程使用的是与模型开发相同的数据(或数据源)时,这种评估被称为内部验证。内部验证的目的在于检验模型开发过程的可重复性,并防止模型过度拟合导致高估模型的性能。

以下是几种常见的内部验证方法:

随机拆分验证:这种方法通常将数据集随机分为两部分,其中一部分(例如70%)用于训练模型,另一部分(例如30%)用于验证模型的性能。这种方法操作简单,计算成本较低,但可能因随机拆分导致训练集和验证集的数据分布不均衡,从而影响模型性能的评估。

图1结果显示对于小数据集,使用分割样本方法效率低下且无益。与大样本性能相比,开发集的c统计量过大(即过于乐观)且变化明显,而测试集验证表明,开发模型的c统计量要低得多且变化很大,相对于模型的大样本性能被低估,表明由于数据太少,模型开发过程中出现过度拟合

图1 样本量对使用随机分割样本方法的预测模型性能(c统计量)的影响

交叉验证(Cross Validation):又称K折检验,是随机拆分验证的改进。以K=10的10折验证为例:将开发队列随机分为10份,每次利用其中9份作为训练集,剩余1份作为验证集,并重复这一过程。这种方法可以有效避免过度拟合及欠拟合状态的发生,最终得到的结果也比较有说服力。

Bootstrap方法(自举法):通过在模型开发队列中进行有放回抽样,构造一个相同样本量大小的Bootstrap重抽样样本,并将此样本作为训练集,将模型开发队列作为验证集评价模型性能重复此过程n次,就可得到模型在内部验证中的表现。这个方法得到的模型有更高的稳定性。Bootstrap方法是一种比样本分割更高效的内部验证方法,可以获得最接近大样本性能的估计值。

内部-外部交叉验证:类似于交叉验证,但是在拆分数据时不是随机分组,而是根据数据来源分组,这种方法多用于多中心数据开发队列。其优势是在模型开发过程中利用了全部开发队列数据(因此仍属于内部验证),同时在内部验证中通过非随机拆分,实现了外部验证的效果。

内部-外部验证利用了许多数据集中存在的共同特征,即聚类(例如,按中心、地理区域或研究)。不是将数据划分为开发和验证队列,而是使用所有数据来构建预测模型并迭代评估其性能。然后使用集群交叉验证检查此模型(基于所有数据开发)的性能,其中保留一个集群(例如,中心、地理区域、研究),并将相同的模型构建步骤(与整个数据所使用的步骤)应用于剩余的集群。然后在保留的集群中评估模型(即校准和鉴别的估计值以及置信区间)。重复这些步骤,每次取出不同的集群,从而允许跨集群检查性能的普遍性和异质性。

图2 内部-外部交叉验证的图示

模型的外部验证

以上就是模型内部验证的一些简要介绍,当然,光靠内部验证肯定是不够的,只是验证了模型的稳定性,至于这个模型能不能推广到其他数据中,仍需要外部的数据集进一步验证模型的性能。

临床预测模型的外部验证是评估模型在新数据集中的表现,特别是在模型开发过程中未使用过的数据集上进行的验证。外部验证关注的是模型的可移植性和可泛化性,即模型在不同时间段、不同区域或不同人群中的表现是否与模型开发时一致。

构建可靠的临床预测模型:预测模型的验证|易侕科研小课堂

Tips:这里有一个小的提醒,有些小伙伴可能会将内部验证误认为是外部验证,因此需要搞清内和外的区别。在构建预测模型的过程中,如果你计划利用一个数据集来建立模型,那么这个数据集内的数据都被称为“内部数据”。相对地,在这个数据集之外,从其他来源获取的数据则被称作“外部数据”。(这个解释可能不是很严谨,但是主要是想各位小伙伴能够注意其中的细节)

外部验证的关键步骤:

  1. 获取合适的数据集

外部验证的第一步是获取合适的高质量数据集。这些数据集可以是前瞻性研究收集的数据,也可以是现有的医疗数据库,如电子健康记录。

  1. 结果预测

使用原始模型在新的数据集上进行预测,不涉及重新调整模型参数。

  1. 评估预测性能

评估模型的预测性能,常用的指标包括C统计量(c-statistics)和校准度曲线。C统计量衡量模型的区分度,而校准度曲线则评估模型预测的概率与实际发生的概率之间的一致性。

  1. 评估临床实用性

除了统计性能外,还需要评估模型的临床实用性,包括决策曲线分析(DCA)等,以确定模型在不同风险阈值下的临床效益。

  1. 明确报告研究结果

最后,需要明确报告研究结果,包括模型的性能指标和临床实用性评估结果。

外部验证的类型

时段验证(Temporal validation):使用与模型开发队列来源相同,但时间段不同的数据进行验证。

空间验证(Geographical validation):对模型在其他中心甚至其他国家的数据中的表现进行验证。

领域验证(Domain validation):在不同的临床场景中对模型进行验证,例如模型开发时是基于医院的患者数据,在领域验证时可以利用社区居民数据检验模型在不同人群中的表现。

外部验证是确保临床预测模型可靠性和实用性的重要步骤,它有助于验证模型在不同环境下的适用性,从而为临床决策提供更有力的支持。

文献示例

接下来小编就通过一个文献例子介绍一下模型的内、外部验证。这篇是发表在《BMC Medicine》上的“Prediction models of colorectal cancer prognosisincorporating perioperative longitudinal serumtumor markers: a retrospective longitudinal cohortstudy”,旨在开发一种结合标志物重复测量的结直肠癌预后信息的新型纵向预测模型,并开发一种可随随访更新预后预测的临床适用动态预测工具。

内部验证是基于云南省肿瘤医院的数据,使用十倍交叉验证对预测模型进行了验证。鉴别力通过随时间推移的受试者工作特征曲线下面积 (AUC) 来测量,校准力通过 Brier 评分 (BS) 来测量。

外部验证是基于中山大学附属第六医院的数据。使用受试者工作特征 (ROC) 曲线评估预测效度。

预测模型的内部验证结果:基础模型的AUC在24个月时为0.707,在36个月时为0.704,在48个月时为0.706,在60个月时为0.681。基础模型的BS在24个月时为0.029,在36个月时为0.059,在48个月时为0.076,在60个月时为0.082。

图3 内部验证的术后18至60个月预测模型的AUC和BS

预测模型的外部验证结果:外部验证的结果与内部验证相似。虽然在外部验证中这些预测模型的判别准确率有所降低,但随着肿瘤标志物及其纵向信息的加入,AUC有所提高。外部验证术前、术后、纵向CEA&CA19-9&CA125模型的性能也逐渐改善,AUC分别为0.620、0.638、0.736。

图4 外部验证的术后60个月预测模型的ROC曲线

这篇文章的预测模型通过内、外部验证证明了其在结直肠癌预后评估中的优越性,特别是在提高预测准确性、个性化动态预测以及临床应用方面展现出显著优势。

总结

在临床预测模型的开发和应用过程中,确保模型的准确性和可靠性至关重要。内部验证是为了检验模型开发的可重复性,并防止模型过度拟合。外部验证是评估模型在新数据集中的表现,关注模型的可移植性和可泛化性。因此有效的模型验证不仅能够提高模型的泛用性,还能确保其在临床实践中的有效性和可靠性,为临床决策提供更有力的支持。

以上就是本期易侕科研小课堂啦,喜欢的同学,可以点个在看哦,我们下期再见吧!

#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}