多臂多结局临床试验设计可以说比较复杂的,今天借一篇发表在医学顶刊柳叶刀子刊的文章,我们来讲讲。
学习多臂多结局临床试验研究论文,我们着重要看以下几点:
1.临床试验论文的规范性;
2.多臂多结局样本量如何计算的?
3.多臂多结局假阳性又是如何控制的?
我们准备做个深度解读,把它做成一个系列,欢迎诸位关注进展!
2025年6月,柳叶刀子刊《Ebiomedicine》杂志发表了一篇三臂、优效性随机临床试验研究结果,题为:“Intermittent fasting for weight loss in night shift workers: a three-arm, superiority randomised clinical trial”,旨在比较两种改良间歇性禁食(IF)策略与持续能量限制(CER)在夜班工人中对体重下降及胰岛素抵抗改善的疗效。
在这篇文章中,我先看看它临床试验论文的规范性
临床试验设计

本研究比较了两种改良 IF 策略(IF:2D;IF:2N)与 CER 对体重减轻的效果,选择 CER 作为对照。研究先验假设为三种饮食均能有效减重,且 IF:2D 与 IF:2N 在改善胰岛素抵抗方面优于 CER。

1.PICOS原则

P(Population)研究对象:在澳大利亚墨尔本和阿德莱德两地招募年龄 25~65 岁、超重或肥胖的夜班工人
I(Intervention)试验组:干预持续 24 周。

IF:2D 组:每周任选两天(休息日或白班日)实施 2100 千焦/天的饮食限制,其余五天正常饮食

IF:2N 组:每周任选两天(夜班期间)实施 2100 千焦/天的饮食限制,其余五天正常饮食

C(Comparison)对照组:CER 组:持续能量限制
O(Outcome)结局主要终点为第 24 周的体重变化和胰岛素抵抗(以胰岛素抵抗稳态模型评估,HOMA‑IR)。

次要结局指标包括:

  • 体成分:体质指数(BMI)、腰围、脂肪量及无脂体重;

  • 心代谢风险标志物:血糖、胰岛素、血脂、糖化血红蛋白(HbA1c)及血压;

  • 行为与生活质量:体力活动、睡眠及生活质量。

S(Study design)研究类型研究者发起的、多中心、平行三臂优效性随机临床试验。

2.随机化

基线测试后,参与者按研究中心、年龄组(25–<39、39–<53、53–≤65 岁)和性别进行最小化分层,以 1∶1∶1 比例随机分配至三种干预组。

3.盲法

研究人员完成招募并分配干预。因需提供营养咨询,进行体重测量的研究人员无法对干预组进行盲法;而进行生化检测和统计分析的人员则保持盲

主要研究结果

2019 年 10 月至 2022 年 2 月间,共 250 名参与者入组(CER 组 85 人;IF:2D 组 83 人;IF:2N 组 82 人;平均年龄 46.8±9.8 岁;女性 133 人,占 53.2%),170 人(68%)完成 24 周随访。

1.主要结局方面

基于意向性治疗分析,与 CER 组相比,第24周两种改良 IF 策略在体重和 HOMA‑IR 上均未表现出显著优势

(1)体重:第 24 周各组间体重无显著差异。

IF:2D 组相较 CER 组均差 –0.2 kg(95% CI –6.4 至 5.9),IF:2N 组相较 CER 组均差 –0.6 kg(95% CI –6.8 至 5.6)。

然而,三种干预均能有效减重。在提供第 24 周结局数据的参与者中,61% 达到临床相关减重(≥5%)(占总随机化人数的 40%)。

多臂多结局临床试验怎么设计?这篇Lancet文章可以讲讲
(2)胰岛素抵抗

在提供第 24 周 HOMA‑IR 数据的 149 名参与者中,HOMA‑IR 均显著下降,但各干预组间差异不显著。

IF:2D组相较CER均差 –0.1(95% CI –1.0 至 0.8;P = 0.82),IF:2N相较CER均差 0.3(95% CI –0.5 至 1.2;P = 0.59)。

(3)敏感性分析

结果显示,调整分层因素(研究中心和年龄)后,两项主要结局结果与主分析相似。

但当第 24 周体重再校正基线体重后,IF:2D 组体重显著低于 CER 组(MD = −2.7 kg)。这一差异主要因 IF:2D 组在提供结局数据者基线体重高于 CER 组,而两组在第 24 周时体重相近。

2.次要终点方面

与 CER 组相比,IF:2D 组第 24 周总胆固醇和LDL‑C 显著降低,但其他次要结局指标均无显著差异。
多重插补后次要结局结果相似。
  • 各组内部在空腹胰岛素、血压、腰围、BMI、脂肪量及无脂体重方面均有显著变化;
  • 仅 IF:2D 组内部在空腹血糖及生活质量上获得显著改善;
  • 各组在 HbA1c、甘油三酯及 HDL‑C 上均未见显著变化。
多重插补敏感性分析结果与主分析一致。

3.依从性

所有组在第 24 周的日均能量摄入较基线均显著减少(表 2),组间差异无统计学意义(表 1)。

4.未报告严重的试验相关不良事件

24 周干预期间报告 2 例严重不良事件(SAE),均被评估为与研究无关。

在减重阶段,IF 组参与者更频繁报告头痛(IF:2D 19%、IF:2N 22%、CER 0%,两组 IF vs CER 比较均 P < 0.001)和胃肠道症状(IF:2D 7%、IF:2N 9%、CER 0%;IF:2D vs CER P = 0.03,IF:2N vs CER P = 0.01)。

老郑小评
从临床试验论文规范性来看,这篇论文做得怎么样?

首先严格遵守PICOS原则来展现结果、主次要结局指标层次分明,统计学方法详细,表格规范。。。。此处我再列举一些重要的规范性元素。

(1)样本量 

好的临床试验论文,没有样本量计算的内容怎么行?于是该文章单独成一段写出统计学方法。在附件里面有更详细的介绍,我们下一期再详细讲!

(2)流程图

没有流程图的临床试验论文,肯定不是什么好论文

(3)效应值及95%置信区间

郑老师很早就在之前的推文强调了临床试验写作效应值和置信区间的重要性。

@所有人:临床研究请报告效应值!|| 什么是效应值?

该研究在研究结局指标上评价上,采用的效应值是差值。作者提供了两组比较的差值及其95%CI置信区间。

因此,从规范性的角度来说,该文章是真真切切地执行了随机对照研究的一般研究规范CONSORT要求。

我们将继续推出统计学细节讲解,继续介绍这篇多臂多结局临床试验,说到多组比较,你知道多臂多结局临床试验,组比较样本量怎么计算吗?