源自风暴统计网:一键统计分析与绘图的AI网站
纵向数据研究是在医学中常见的用于追踪同一对象在不同时间点变化的研究方法。失访、漏访所导致的数据缺失是纵向研究中的常见问题。数据的缺失机制可分为:
尽管已经有研究指出重复测量方差分析和t检验在MAR情况下可能会导致偏倚,但临床研究者仍常用这些方法。
今天要了解的这篇文献,直观的向我们展示了传统方法(重复测量方差分析、t检验)和现有方法(线性混合效应模型(LME)、协方差模式模型(CP)、广义估计方程(GEE))在MAR缺失机制下的表现问题。
模拟研究
1.双群体 双机制
研究者以儿童抗反流术后生活质量(HRQoL)为模拟场景,模拟了两个临床真实存在的群体:
-
神经正常儿童(NN组):100名,模拟较小的随机失访(4-10%,MCAR机制)
-
神经受损儿童(NI组):100名,模拟较高的非随机失访(10-40%,MAR机制)
这种设计巧妙地分离了缺失机制的影响。在现实中,病情较重的患者往往更容易失访——可能是因为疾病负担重、行动不便或对治疗失望。研究通过让NI组的失访概率与基线生活质量得分负相关(低于中位数的患者失访概率高4倍),精确模拟了这一临床现实。
研究模拟了四个时间点(0、3、6、12个月),并设置了合理的自相关结构(月度相关0.85,相当于基线与12个月相关0.15)。这种设定反映了大多数健康指标的典型时间模式:近期测量相关性高,远期相关性低。
效应量的设定基于实际研究数据:
-
NN组:生活质量从75分升至80分(改善6.7%)
-
4.研究比较了五种代表性方法,构成了一个从简单到复杂、从传统到现代的完整谱系:
-
t检验系列:包括配对t检验(组内变化)和独立样本t检验(组间比较)
-
重复测量方差分析:长期以来心理学和部分医学领域的“标配”
统计学结果解读
结果展示了2种缺失机制、4种缺失情景下,5种方法对2个群体(NN和NI)在4个时间点(0, 3, 6, 12月)估计健康相关生活质量均值的偏倚(Bias)。
图1中对比了5种方法在不同缺失数据场景下,估算的生活质量(HRQoL)均值与真实均值的偏差(偏倚越小,结果越准确)。
图2结果可得,代表线性混合效应模型、协方差模式模型、广义估计方程的标记点紧密围绕零偏倚线分布。这表明即使失访率高达40%,这三种现代方法也能提供几乎无偏的均值估计。
MCAR场景中,RMA的SE略高于LME、CPM、GEE(12月除外),相对precision比LME低约10%——说明即使随机缺失,传统方法的稳定性也略逊于进阶模型。
MAR场景中,RMA的SE显著高于其他方法,差异随dropout比例增加而扩大,相对precision比LME低达40%,稳定性极差;CPM和GEE的SE始终较低,precision优于LME和传统方法——这是因为CPM适配了数据的相关性结构,GEE采用稳健方差估计,均提升了稳定性。
图4展示了各方法的95%置信区间的覆盖率(Coverageof 95%CI)。所有3个对比、所有4个dropout场景下,覆盖率均稳定接近95%——说明这两种模型的结果可靠性极强,即使40%非随机缺失,也能保证真实效应被准确覆盖。
图5展示了95% 置信区间的宽度,置信区间越窄,说明估算的“精准度” 越高(在覆盖率达标的前提下,窄 CI 更优);宽度变异性越小,结果越稳定。
所有场景、所有对比中,CI 宽度最窄且变异性最小(范围最集中)—— 说明 CPM 在 “可靠性达标”(覆盖率接近 95%)的同时,精准度最高,结果最稳定,是最优选择之一。
图6为组内和组间的检验效能对比。当效应幅度较小时(组内变化),传统方法在 MAR 场景下效能不足,进阶模型(尤其是 GEE、CPM)能提升检测真实效应的概率;当效应幅度较大时(组间差异),所有方法均有效,但进阶模型更稳定。
LME和CPM在所有图表中均表现出一致的稳健性、无偏性、推断可靠性和良好效率。这项研究通过可视化的模拟数据,强有力地主张:在分析存在非随机缺失的纵向数据时,LME或CPM应成为标准方法,而继续使用重复测量方差分析或简单的t检验在方法论上已站不住脚。
|