引用格式:韩芳,周甜甜,左佳鑫,等.针灸临床试验样本量估计的常见方法学困惑与解决策略[J].针刺研究,2025,50(10):1194-1198.
样本量估计
样本量估计是临床试验设计的一个重要环节,直接关系到研究结论的可靠性和可重复性。样本量过大会增加临床试验的执行难度,造成资源浪费;而样本量过小会导致试验的检验效能不够,阴性结果难以解释。对于临床试验的样本量估计,研究者期望的是足够的检验效能下的最小样本量,既能满足试验的统计学需求,又能最大限度控制试验成本和风险,提高研究效率。
临床试验通常包括预试验和确证性试验。预试验也称为探索性试验,其目的是根据数据分析结果为后期的确证性试验设计提供相应依据,在进行样本量估计时可以按照预试验的最小样本量要求,而不用完全按照确证性试验的样本量估计方法。确证性试验是一种事先提出假设并对其进行统计检验的试验,其样本量估计的目的是使样本量具有足够大的统计学检验把握度,能对所提出的问题进行可靠的回答。由于两种试验类型的目的不同,样本量估计方法亦不同。
本研究团队在既往针灸临床试验方案的科学性审查及论文审稿过程中,发现部分研究者在进行针灸随机对照试验(RCT)的样本量估计时仍然存在诸多方法学困惑,例如预试验是否需要进行样本量估计,样本量估计需要哪些参数,不同假设检验类型的样本量估计方法是否相同,样本量估计部分应该如何进行规范报告。基于此,本文针对这些常见困惑进行探讨,并提出解决策略,以期为针灸临床试验的样本量估计提供参考。
1 针灸预试验的样本量估计
1.1
预试验在针灸临床研究领域的应用和价值
针灸属于复杂干预措施,包括针刺、艾灸和拔罐等,针灸临床试验的显著特点之一是干预措施的复杂性,患者体位、腧穴的选择与配伍、腧穴定位(如是否揣穴)、进针角度、进针深度、是否得气、治疗频次、留针时间、补泻手法及是否根据中医特色理论进行辨证论治与辨经论治,均为影响针刺干预效果的重要因素。多数针灸干预措施缺乏历史试验数据和先期经验研究,此外,作为样本量估计必要因素之一的对照组数据,在针灸领域也很难获得,因为针灸的安慰对照设计有穴位或非穴位、刺入或不刺入等不同类型,对不同受试人群起到的安慰作用也各不相同。因此,针灸临床试验的样本量估计所需参数往往很难找到相同研究作为参考,此时如果贸然开展大规模确证性试验易造成科研浪费。开展预试验是获得更为准确的样本量估计参数的方法之一,对后期确证性试验的设计十分必要。
近年来,预试验在针灸领域的价值逐渐凸显,并得到越来越多的重视及应用,针灸领域开展预试验的数量逐年增加,并有一些高质量的研究发表。例如刘志顺团队于2012—2014年开展了一项电针治疗女性单纯性压力性尿失禁的预试验并于2016年发表在PLoS One上,团队据此设计了后期的确证性试验,研究结果于2017年发表在JAMA杂志。刘存志团队对不同针刺频次治疗膝关节骨关节炎开展了一项预试验,于2020年发表在Pain上,在该预试验的基础上,设计并实施了确证性试验,并于2021年发表在Arthritis Rheumatol上。这种从预试验到确证性试验连续体的设计模式,为针灸临床试验的设计及实施树立了典范。
1.2
针灸预试验是否需要进行样本量估计
根据研究目的不同,预试验的样本量大小长期以来并没有形成固定和统一的标准,在已发表的针灸预试验中,样本量从十几例到一百多例不等。一般来说,预试验不需要进行严格的样本量估计。研究目的不同,预试验样本量的推荐意见也不同,例如,当预试验的目的是探索后期确证性试验的可行性或估计试验的招募和入组进度,可以根据经验法每组采用12例样本;当预试验的目的是为确证性试验的样本量估计提供精确度较高的参数时,如果预期人群中结局指标变异水平较大,建议每组样本量不少于30例,变异较小时,可考虑每组12例;也有研究者建议,对于采用连续型变量作为主要结局指标的试验,预试验的样本量应为70例(每组35例),而对于分类变量或等级变量的结局指标,预试验的总样本量应达到120例(每组至少60例)。
1.3
预试验的样本量估计如何进行规范报告
目前发表的针灸预试验研究中,中文文章多以“预试验”进行表述,偶尔有 “探索性试验”的表述,英文文章多以“pilot trial”表述,“exploratory trial”偶尔使用。虽然预试验并不要求严格按照确证性试验的样本量估计方法进行计算,但建议对样本量的确定做出解释说明。例如,在针刺治疗腹泻型肠易激综合征的预试验研究中,样本量估计部分描述为“按照可信区间上限的方法,20至40例的样本可以作为预试验样本量大小的参考。考虑到总体资源投入问题(研究费用和预期完成时间),本研究总样本量确定为90例患者,每组30例患者”,该预试验中样本量的确定方法及报告方式可供研究者参考。
2 针灸确证性试验的样本量估计
2.1
针灸确证性试验的样本量估计需要哪些参数
在针灸确证性临床试验中,进行样本量估计所需要的参数包括主要结局指标、效应值、检验水准(α)、检验效能(1-β)、组间分配比例、脱落率等。
(1)主要结局指标:主要结局指标体现研究目的,临床试验样本量应当根据主要结局指标进行估计。针灸临床试验中,研究者应预先确定主要结局,并明确主要结局指标的定义、类型(例如定量、定性、生存时间)、测量时点(特别是需要多次测量时)和主要结局的形式(例如指标相对于基线的变化值)。
(2)效应值:效应值是样本量估计所需的重要参数之一,也是样本量估计中最困难的一个环节。根据结局指标的不同类型,常见的效应值有:计量资料的均数和标准差,率的组间差值或比值(RR、HR、OR),或相关系数等。效应值的获取可以通过以下方式:①对相似研究问题的前期研究和相关发现进行系统检索;②在开展确证性试验之前进行预试验;③基于临床经验对缺失参数的可能取值进行估计。
(3)检验水准(α):α是Ⅰ类错误(即假阳性概率),双侧检验时α通常取0.05,α越小,所需样本量越大。选择单侧还是双侧检验,应根据试验的目的进行确定。
(4)检验效能(1-β):β是Ⅱ类错误(即假阴性概率),β通常取0.10或0.20,β越小,所需样本量越大。检验效能(即把握度)是指总体间确有差别时,按检验水准α能发现其差别的能力,检验效能一般不能低于0.80。

(5)组间分配比例:通常,临床试验各组的样本量设置相同,即组间比例为1∶1,此时检验效能最高。但在中医院开展的针灸临床试验中,患者对针灸治疗存在选择性偏好,不愿意接受西医治疗,在对患者实施随机分组时,可能会遇到西医对照组患者入组困难的现实问题。此时,可适当降低对照组的样本量,将试验组与对照组的分配比例设置为2:1或3:1,利于患者的招募和入组。
(6)脱落率:针灸临床试验样本量估计时,要考虑到受试者可能有脱落。一般来说,需要在计算所得样本量的基础上增加10%~20%的研究对象。假设p为脱落率,样本量需要增加1/(1-p),例如:计算所得样本量=160例,p=20%,最终的样本量=计算所得样本量/(1-0.20)=200例。
2.2
针灸临床试验不同假设检验类型的样本量
估计方法是否相同
根据临床试验不同的研究目的,需要采用不同的假设检验,常用的假设检验类型有差异性、优效性、等效性和非劣效性试验,其中等效性试验在针灸领域应用较少,故本文不对其进行介绍。
(1)差异性试验:在针灸临床试验中,差异性试验较为常见,其目的是比较针灸干预措施与对照组相比疗效的差别,与优效性或非劣效性试验不同,一般不明确标明为差异性试验。
(2)优效性试验:是检验试验组干预措施的效果是否优于对照组的试验,一般对于以空白对照或安慰针作为对照的针灸临床试验,应当作优效性试验。例如一项RCT评价了与假针刺相比,采用真针刺治疗战争相关的创伤后应激障碍的疗效,其目的是检验真针刺的疗效是否优于假针刺,因此该试验采用优效性试验的设计;
(3)非劣效性试验:针灸非劣效性试验的主要目的通常是评价一种针灸干预措施是否不劣于对照措施(阳性对照,通常是已上市的有效药物或被广泛认可的标准治疗方案)。例如,Am J Gastroenterol于2020年12月发表了刘保延、刘志顺团队的研究成果《电针与普芦卡必利治疗严重慢性便秘:一项多中心、随机、对照、非劣效性试验》,其研究结果显示电针治疗严重慢性便秘疗效不劣于阳性药物普芦卡必利,且停止电针治疗后疗效仍可持续。
不同假设检验类型所需的样本量估计方法并不相同,检验水准α也不相同,差异性试验为双侧检验,α常取双侧0.05,优效性和非劣效性试验为单侧检验,α常取单侧0.025,而等效性试验为双单侧检验,检验水准α常取单侧0.05。需要注意的是,当优效性试验的优效性界值Δ为0时,计算出的样本量与差异性试验是相同的。具体的样本量估计公式和PASS软件的操作详见本团队前期已发表文献。
2.3
针灸临床试验的多个主要结局指标
或多个组别如何进行样本量估计
临床试验的主要结局指标是研究者最为关注的指标,也是样本量估计的主要依据。虽然临床试验的统计学指导规范建议主要结局指标最好只设一个,但对于针灸临床试验,有时研究者认为一个主要结局指标难以全面客观地反映针灸的真实疗效,此时可以采用两个或两个以上的主要结局指标。例如刘存志团队2020年在Am Intern Med上发表“老十针”治疗餐后不适综合征的多中心RCT,该研究设定两个主要结局指标,分别为整体疗效评估的有效应答率和3个核心症状(餐后饱胀、上腹胀和早饱)的消除率。对于多个主要结局指标的临床试验在进行样本量估计时,需要首先明确如何定义干预措施有效:如果研究者认为全部的主要结局指标均具有统计学意义时,才能认为干预措施有效,此时不会引起总Ⅰ类错误率膨胀,故不用进行多重性调整,但会引起总Ⅱ类错误率膨胀,导致总检验效能降低,因此这种情况下需要在设计阶段增加样本量;如果研究者认为多个主要结局指标的其中一个有统计学意义,就认为干预措施有效,此时需要进行多重性调整,常用的调整方法为Bonferroni法,调整的α’=α/c,c为比较的次数,任意一个主要结局指标的样本量计算仍然采用通用的样本量计算公式,但是α应取调整后的α’。最终的样本量取计算所得各个样本量中最大的样本量。
尽管多数情况下,针灸临床试验会设置两个组别,例如比较真针刺与假针刺的疗效,但有时研究者也会设置多个组别。例如赵凌团队牵头开展的基于敏化穴的个体化针刺治疗慢性颈痛的多中心RCT,研究成果于2024年发表在Ann Intern Med上,该研究设置4组,分别为高敏化穴组、低敏化穴组、假针刺组及等待治疗组。对于多个组别临床试验在进行样本量估计时,如果要进行组间两两比较,此时需要进行多重性调整,调整方法与多个主要终点的调整方法相同,任意两个组别间比较的样本量计算仍然采用通用的样本量计算公式,但是α应取调整后的α’,取各个样本量计算中最大的样本量作为最终的样本量。
2.4
针灸临床试验的样本量估计
应该如何进行规范报告
恰当的样本量估计固然重要,但规范报告样本量确定过程亦不容忽视。随机对照试验报告统一标准(CONSORT)声明中明确要求作者说明临床试验的样本量确定依据和方法。以刘保延和刘志顺团队2017年发表在JAMA的一项电针治疗女性压力性尿失禁的随机对照试验为例,其中样本量估计部分报告如下:根据本研究团队之前的一项电针研究结果,估计1h尿垫试验检测漏尿量的组间差异为1g,标准差为2.61,把握度为90%,双侧检验水准为0.05,每组需要144例受试者。考虑20%的失访率及事先规定的亚组分析,我们计划每组纳入250例受试者(合计500例)。此部分清楚报告了主要结局指标、效应值的来源、检验水准(α)、检验效能(1-β)和脱落率,该研究中确定样本量的报告方式可供研究者参考。
3 总结
对于针灸临床试验,在进行样本量估计之前要做好充分的前期准备,例如确定试验是预试验还是确证性试验、试验的主要目的及假设检验类型、主要结局指标、效应值的获取等。通常,预试验不需要进行严格的样本量估计,但建议对样本量的确定做出解释说明。确证性试验样本量估计参数的确定需要有依据,并根据不同的假设检验类型选择相应的样本量估计方法,同时需要考虑存在多个主要结局指标或多个组别时样本量估计的特殊性,并且在科学估计样本量的基础上进行规范报告。希望本文能为针灸临床研究者今后进行临床试验的样本量估计提供参考。
● 编辑 排版:罗宇婷
● 审核:徐晖
#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}