说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research
随机试验中的不均等样本量分组:避免猜测
一、摘要
- 普遍的概念认为随机试验需要产生样本量大小相等的各个比较组,对此我们深感不安。
- 不幸的是,这种概念上的误解导致研究者强行达成样本量相等而产生偏倚,尤其如果应用的是不科学的方式。
- 简单的非限制性随机试验(类似于重复抛硬币),各组的样本量应该显示出随机变异性。换句话说,不同比较组的数量有差异是可以预计到的。在简单随机对照试验中,各组的相同样本量是被修饰过的,并不科学,因此,其他的有限制性的随机方案通过非简单随机而强制平衡各组样本量。
- 强制相等的各组样本量对分配的不可预测性有潜在的损害,特别是在非双盲试验中应用的排列区组随机化法。不可预测性的削弱可以使试验产生偏倚。
- 整体来说,研究者较少使用简单随机法,而过度使用了固定区组随机法。
- 对于大于200名受试者的非双盲试验,研究者应该使用简单随机法,并接受样本量的适当差异。这种不可预测性反映了随机法的本质。我们认同产生的轻度不平衡的分组样本量,并鼓励采纳这种不平衡性。
- 对于总体样本量小于200的非随机双盲对照试验,或者在非随机双盲对照试验的主要分层及亚组中,瓮随机化法比区组法更能增强不可预测性。
- 我们的混合随机方法是一个更简单的选择,它可以在现今理解的简单随机法和排列区组随机化法的背景之下获得不可预测性。简单随机法提供不可预测性,而排列区组法在提供平衡的同时避免了绝对平衡会导致的选择偏倚。
二、前言
- 在随机对照试验中,尤其是使用排列区组随机法(permuted-block randomisation)的非双盲试验(non-double- blinded trials)中,绝对均等的样本量对提高统计学的把握度(power)没有什么帮助,而且潜在地威胁了不可预测性。
- 参与随机试验的人无法预见之后的治疗分组,因而不可预测性(unpredictability)反映了随机法的要旨(essence)。而预测性则带来偏倚。
- 除了简单非限制性随机法之外的其他随机法产生更多的可预测性。这些不同的方法被称为有限制的随机化方法。假定最常期望的分配比例是1:1的话,有限制的随机化方法通过限制治疗分配而产生贯穿整个试验的相似的、或者常常基本上相等的各组样本量。有限制的随机化方法都牺牲了不可预测性,但是预测性最为明显的是在非双盲试验中应用排列区组法(permuted- blocks)(panel 1)。
- 试验者依赖于不可预测性带来的安全性。过去,我们建议培养对简单随机试验中不均等的样本量大小的接受能力。现在,我们建议也要培养对有限制的随机试验中不均等的各组样本量的接受能力。
- Panel 1:分配序列中的不可预测性
- 可预测性(predictability)在临床试验中产生偏倚。如果试验研究者弄清或预测到随后的分配分组,他们就会引入选择偏倚。在评估是否合格时,他们可以排除在他们看来指派到错误分组的受试者。甚至,若干技巧使得他们可以引导预后好的受试者分配到治疗组,而预后差的受试者到对照组,反之亦然。无论这样做的原因是什么,试验者让对比产生了偏倚。临床医生可能在诊疗患者的时候注重可预测性,但是他们必须明白这种可预测性在临床试验中会大量地引起偏倚。
- 试验研究者破坏了分配隐藏机制后能猜到下一个分组(例如:把半透明的信封放到亮着的灯泡下)。但是,恰当的分配隐藏通常会防止这种破坏。另一种情况是试验研究者用排列区组法有时候可以通过之前的分组特征猜出下一个分组。比如,在一个区组大小为4的非双盲试验中,如果试验研究者注意到每4个受试者入组后两组的样本大小是相等的,那么就能预测许多之后的分组。举例来说,如果区组大小为4,出现ABA这样的序列,那么B必然是下一个入组的,或者出现BB,AA就是后两个入组的。
- 在非双盲试验中,哪怕有恰当的分配隐藏,所有的干预分配在分组之后也成为可知的。因此,如果出现一种分配序列的模式,试验研究者就能辨识出来并预测一些之后的分组。但是,如果不出现分配模式,或者模式是不可辨识的,则分配序列是不可预测的。因此已知从前的分组不能帮助预测之后的分组情况。不可预测性是非双盲随机试验的要旨。
- 在分组前进行恰当的分配隐藏,分组后对所有参与试验的人恰当设盲使得之前的分组不可知,从而防止预测之后的分组。恰当的设盲减小了对不可预测性的需求。但是,即使在本应是盲法的试验中,分组后的设盲并非总是成功的。例如,如果试验研究者发觉病情进展很快,从临床角度来说显然是副作用所致,这样就暴露了所指定的干预措施,因而盲法也不可能防止预测。
三、强行修饰的可信度/Forcing cosmetic credibility
- 随机化研究的报告中出现各比较组的样本量大小均等的情况比预期的更多。在简单非限制性随机对照试验中(类似于重复拋硬币),各比较组样本量的相对大小应该体现随机变异性(random variation)。
- 换句话说,相比较的分组样本量的不同是可以预见的。然而,对普通医学和专科医学杂志所报道的试验分析显示,研究者过于频繁地报告比较组之间的样本量大小均等(定义为绝对均等,或在总样本量大小为奇数时近似相等)。在专科杂志中,报告各比较组的组间样本量存在差异的数量与预期的相距甚远(p<0·001),并且在简单随机(非限制性)试验中54%的样本量都是相等的。这个结果高于区组法试验(36%),而区组法试验中是追求均等的。此外,关于皮肤病学文献的相似分析的结果显示,71%或者更多的简单随机试验报告了绝对相等的各组样本大小。
- 为什么研究者寻求相等或相似的分组样本量?我们感觉到许多研究者把得到相等的样本量作为终极任务。相等样本量有着被称为“修饰的可信度(cosmetic credibility)”的诱惑,这种诱惑是如此明显。可悲的是,读者们也被修饰的可信度吸引了。但是,努力用简单随机法来达成均等的样本量大小在方法学上是不合逻辑的。
- 前文提到的占了很大比例的均等分组样本量标志着这个偏差不是由机遇产生的,并提示非随机化法操纵着分组以达成强行均等。其他合乎逻辑的解释看来不错,但可能不能说明我们所看到的偏差。对分组的这种胡乱修补由于将选择偏倚引入试验中而造成难题。我们希望消除获得绝对均等样本量的动机背后的神话,从而解决这些难题。
- 不过,除了非随机化法操纵分组的问题外,我们将会关注用有效的限制性随机方法在达到各组样本量大小平衡时带来的潜在偏倚,首先是排列区组随机法(permuted-block randomisation),它在整个试验过程中产生均等的样本大小。遗憾的是,用来确保均等的样本量的方法有利于正确预测未来的治疗分组,使得偏倚渗透进来。
四、有限制的试验中的不均等样本量分组
- 限制性随机化方法是用来平衡样本大小的。这种平衡通常能增强统计把握度,并在试验期间可能进行治疗效果或结局的测量(measurement)的时间点上表现出来。此外,层内的有限制的随机化法对要从分层中获益的研究者而言变得至关重要。因此,科学合理的理由可为限制提供支持。
- 但是有效的限制并不需要产生完全相等的样本大小。一个试验的把握度对组间样本量上的轻微差异并不敏感。因此,产生相似的样本大小的限制性方法和产生相等的样本大小的限制性随机化方法所带来的把握度(power)、时间趋势(time trend)和分层益处(stratification benefits)是几乎一样的。
- 但是相等的样本大小可能带来不良后果。主要的限制性随机化法是随机排列区组法(blocking)(区组化)。总体来说,这种方法能很有效地达到在各个比较组之间(以及如果分层的话,在各层之间)获得相等的样本大小的目的。此外,每个区组分好后,也产生相同的样本大小。但也由于这样的作用,它带来了可预测性的不足之处。
- 尤其在非双盲试验(non-double-blinded trial)中,可预测性是最大的弱点。我们将双盲试验定义为受试者、研究者和结果评估者对其中的治疗方案都不知情。事实上,所有非双盲试验中,有的研究者会知道治疗方案。因此,即使有充分的分配隐藏,在分组之后治疗方案还是变成可知的。有此信息,试验研究者可以解码固定的区组大小(假定组织者最初是不对他们公开所有的区组大小信息的),然后预计何时会出现各组样本量相等(Panel 1)。通过之前的分组特征可以猜出分组序列,之后的分组也可以被准确预知。因此,无论分配隐藏的效果怎样,都导致选择偏倚。在一个双盲试验中,如果明显可觉察到的治疗副作用迅速出现的话,同样的难题也可出现,虽然程度较轻。
- 如果整个随机对照试验中区组大小保持固定,则区组的大小,尤其是小区组(比如小于等于6个受试者),容易被破解。因此,如果研究者使用区组随机法,应该变动区组大小以减少分配表被那些负责入组和分组的人获知的机会。
- 但是区组大小的随机化不是万能药。即使随机变动区组的大小,区组化在整个试验的过程中还是会多次出现各组样本量相等的情况。区组大小随机化能帮助减少选择偏倚,但是某些情况下可能不会消除它。即使使用随机的区组大小,排列区组随机法表明试验招募者仍有机会预计到某些分组。
五、非双盲试验中的不同选择
(一)简单随机法(simple randomisation)
- 对于总样本量大于200人的非双盲随机对照试验(两组的平均样本量是100),以及在每个计划的亚组内或者层内,我们推荐简单随机法(simple randomisation)。它提供完美的不可预测性,从而通过分配序列的生成消除选择偏倚。此外,简单随机化在各种序列生成过程中出现机遇偏倚的可能性最小,而且它还使得几乎所有标准统计软件都能可靠地应用。
- 样本量大小超过200,简单随机化通常仅产生轻度不一致的组间样本量。然而,200的截点仅仅是一个整体的指导。各个研究者可能想判断各自特定的可接受的不一致程度。
- 小于200的样本量的期中分析(即:在研究者完成全部样本量之前)也 需要注意。这种情况下,各治疗组间样本量的不一致性会相对较大,不过我们认为简单随机化的不可预测性更多地补偿了这种损失。
(二)有限制的随机化方法
- 对于样本量小于200的非双盲随机对照试验,或一个分层试验中的任一主要分层或者亚组中,我们推荐使用有限制的随机化法。尤其是瓮随机化法设计能很好地促进而非强制达成平衡。
- 它倾向于在一个试验重要的早期阶段多做平衡,之后当试验样本大小增加时进行简单随机化。这一作用在整体试验样本大小不确定的时候,或者更可能在分层试验中分层大小不确定的时候,都是有用的。在持续检测治疗效果且随时可能终止的试验中,它也证明是有用的。瓮随机化法的设计通常有充分的平衡性,同时比排列区组法更不易出现选择偏倚。
- 这些理想的特性也带来了警告。有的统计学家推荐在瓮随机化的设计中使用置换检验(permutation tests)。置换检验是治疗效果相同性的无前提假设的统计检验。遗憾的是,标准统计软件中通常不对瓮随机设计提供这种检验。这增加了研究者和统计学家进行分析的复杂性。然而,如果结局变量不出现主要的时间趋势,瓮随机试验用常用的统计软件进行标准统计分析通常产生与置换检验相似的结果。此外,用标准统计分析,研究者可以很容易获得常见的效果测量的可信区间。
- 令人惊讶的是,报告中不常出现瓷随机设计或其他形式的偏性掷币(biased coin)的设计形式。另一个可能阻碍瓮随机化法广泛应用的原因是其概念上的复杂性。它比简单随机化或排列区组随机化要难以理解。无论什么原因,瓮随机设计都在黯然消逝。
六、混合随机(mixed randomisation)
(一)混合随机的设计
我们现已尝试在已有的临床流行病学知识基础上建立一种方法。我们想要一种能总体上达到瓮随机化的不可预测性,且其不可预测性在小样本试验中更甚之,同时又没有其显而易见的复杂性的有限制的随机化方法。
我们的解决方法混合了简单随机化法和排列区组随机化法。
- 简单随机化提供不可预测性。
- 排列区组随机化则提供平衡。
- 混合方法由替换随机化程序(replacement randomisation procedure)生成一个不均等的区组开始(panels 2 and 3)。
- 随后就是最简单的方式,区组大小变动的标准排列区组。
- 这种排列随机化顺序在一开始就建立不均等性,使得剩下的试验中任何对分组的预测都不可能。
替换随机化方法基本上是简单随机化,但有一些轻微的改动。因为研究者应该力求一个不均等区组,他们会事先对各个分组之间的样本量大小设定一个不等度。然后用简单随机法准备分配序列,检查样本大小间的不一致性与他们预设的不等度之间的差异。若样本间的不一致性等于或者超过他们预设的不一致性,则本次简单随机化分配顺序可用于第一次不均等区组大小的要求。如果不能的话,则生成一个全新的简单随机序列替换前一个。他们会重复此过程直到生成一个简单随机序列等于或超过他们预设的不一致性(panel 2)。第一个不均等区组的区组大小整体可以是奇数或偶数,且几乎可以占总样本的任意比例,不过我们设想它通常落在5~16之间。
我们的基本方法是在试验中形成初始的不平衡。替换随机化只是代表一种达成它的方法。也可以从随机不平衡排列区组法(random imbalanced permuted blocks)或其他由这个主旨变化而来的方式中选择。
如果研究者能接受不一致性的变化,有另一个又好又简单的方法,即将第一个区组的大小设定为一个奇数,这至少确保了一定的不一致性,又可以只需使用简单随机法(没有替换随机化)。
关于第一个区组的可接受的预设不等度的确立是很不敏感的。即使治疗组的总样本量按2:1比例分配时,试验的把握度也不会明显下降。研究者仅需要产生比这小得多的不等度,尤其在分层试验的样本量小的各层中。确保在差异度小的时候能和差异度大的时候产生一样的不可预测性。此外,实际上不一致性能通过增加不可预测性轻度地增加试验的把握度。
比如:在比例检验(tests for proportions)或者生命表检验(tests for life-tables)中,最大把握度是通过不等的治疗组样本大小获得的。
在第一个不等区组之后,研究者应该进行常规排列区组随机法(panels 2 and 3)。我们建议随机改变区组的大小,且尽可能增加实际可行的区组的长度以得到较大的不可预测性。为了增加不可预测性,研究者可以在试验期间不时用替换随机化方法生成几个额外的不等区组。如:
- 在超过下50个受试者之后的一个排列区组后插入另一个不均等区组(用整个区组则意味着下一个不等区组很可能从50之后开始)。
- 另一个选择是,对这些插入的区组,研究者可以仅用简单随机化方法。这会稍微简单点,很可能会提供额外的不可预测性,也提供更多潜在的分配序列。其他的选择也可以产生这样的插入区组(如不平衡排列区组),但这已超出了本章范围。
对分析来说,我们建议用可供使用的统计软件做标准统计分析(即更简单的方法)。
- 基于设计的置换检验可以稍微提高一些假设检验的信度(credibility)。
- 但我们更喜欢标准统计分析所产生的可信区间。
- 我们也同意在分析中对区组的忽略是可以接受的。
- 如果结局有时间趋势,在区组试验中这种简单直接的方法则通常产生比较保守的结果,否则,其结果与合并忽略区组的分析法相似。
比起缺乏不可预测性而增加的潜在的选择偏倚效应来说,上述的问题是微不足道的。一旦试验中渗入偏倚,它会变得根深蒂固且通常不易被察觉。除非在有限的情况下,研究者可能用一种创新的检测方法。
当前,在排列区组随机化试验中关于标准统计分析与置换检验,或非区组分析与区组分析之间的比较,总是关注于表面上的P值或把握度的小小增加。但无论选了何种分析方法,许多情况下对试验的阐述是相同的。更重要的是不同于选择偏倚,研究者对分析方法有直接补救的方法。如果杂志编辑或者统计学审稿者坚持要用另一种不同的方法,通常研究者可以重新做一遍区组分析或置换检验。总之,研究者应尽力关注于在设计和执行试验中防止偏倚,采用一种不可预测的分配序列就是努力的一部分。
(二)混合随机法的步骤(Panel 2)
- 第一步:用替换随机化方法在第一批受试者中生成一个不均等的区组
- A.确定第一个不均等区组的区组大小。这个区组的大小可以是奇数或者偶数,或者任何合理的数目,不过通常在5~16的范围内。
- B.给第一个不均等区组的分组样本量指定一个预定不等度(inequality)。
- C.生成一个简单随机序列(例如:一个随机数字表或一个电脑随机数生成器)。
- D.检查由之生成的序列是否符合或者超出上述步骤B所希望得到的预定不等度。
- E.如果所有的治疗组A和所有治疗组B之间有足够的不等分布,进行第二步,否则,回到上述步骤C.(不断重复)。
- 第二步:为随后的受试者生成随机排列区组
- A.选择排列区组的大小。较长的区组(比如10到20)比较短的区组(比如2到4)更不可预测。大家应该更倾向于长区组,除非研究者需要在一个小型试验或者试验中的一个小的分层中有合适的平衡。例如,研究者可以选择8、10、12和14作为区组大小。
- B.生成随机排列区组,随机改变区组大小,如许多文章中所描述的。
- C.决定是否在试验中增加额外的不等区组或简单随机区组。如果不增加,用随机排列区组完成要求的样本量。或者指定一个插入点加入不等区组或简单随机序列。
- D.如果通过替换随机化插入另一个不等区组,重新执行第一步。如果插入一个简单随机序列,进行第三步。
- 第三步:生成一个在一组排列区组后插入的简单随机序列
- A.确定简单随机序列的大小。此样本大小可以是奇数或者偶数,或任何合理的样本大小,但是通常在5~16之间。我们建议用奇数以确保不平衡。
- B.选择按照之前建议的样本大小生成一个简单随机序列。
- 继续进行第二步的步骤B。
(三)混合随机法举例
通过把握度计算,随机法方案要求整体样本量为100。研究者决定第一个不均等区组大小为10,预设差异度为第一个不等区组中的治疗方案A和B之间的受试者差异至少为4。
然后研究者执行替换随机化,选择简单随机序列大小为10,直至成功地生成了一个10个受试者的分组,其中治疗方案是A或B,—种方案比另一种方案的受试者至少多4个人。此序列为BABBBABBAB,实际上,3个A治疗方案,7个B治疗方案。
然后研究者决定随机将排列区组大小改为6或8或10或12之间的任意一个。此程序在接下来的研究中可以简单地继续下去,但是研究者决定在第40个受试者完成排列区组分配后插入一个大小为5的简单随机分组序列。随机选择的区组大小依次为12、8和10。简单随机序列从第41个受试者开始,为BABAA。
在此简单随机序列之后,研究者再次进行随机排列区组法,区组大小为6、8、10或12,第一个随机选择的区组大小为8。我们描述分配序列及前53个分组按治疗分配的累计分组情况。
七、要在研究方案中全部公布吗?
- 在研究方案中清晰地提供随机化方案的细节可能更方便破译分组顺序。我们推荐研究者不要在研究方案和研究者手册中完整描述他们生成方案的过程。他们可能不得不描述分层计划,但对执行试验的人要隐藏生成分配序列方法的所有细节。
- 有些基金负责人要求提交更多的文件以确保研究者了解合适的随机化方法。适当的原理和参考文献可能就足够了。如果基金机构要求更多说明,研究者应向基金会提供一份单独列出的生成分组序列的计划,而且不要和决定受试者入组的研究者共享。不过,在试验的最终报告里,研究者应该完整地记录随机化过程。
八、结论
研究者简单随机法使用得太少,而固定区组随机法使用得太多。这样做是因为他们没有充分理解不可预测性的重要性,并且过高地估计了治疗组样本大小相等的价值。
简单随机法是完全不可预测的,操作简单,且能用标准统计分析软件。对大于200个受试者的非双盲试验而言,研究者应更多地使用简单随机法,同时就算不赞美也要容许组间样本大小的不一致性。这个不可预测性反映了随机化的本质。
对于非双盲随机对照试验,如果总体样本小于200或在重要分层或亚组中,瓮随机设计相对于区组随机化增加了不可预测。
然而,我们的混合随机方法在目前可理解的简单随机法和排列区组随机化的联合应用中获得不可预测性。我们极力主张研究者至少在非双肓试验中应用这一方法。
为什么给试验的实施增加复杂性?答案是保护随机化的完整性的重要性高于一切。恰当的随机法使得偏倚最小化,甚于试验中任何其他方法学的特点:
"一旦随机化泄露,试验保证无偏倚的能力就彻底进了水沟。"
那些参加试验的人会费力破译随机化方案。因此,研究者设计试验时必须同样努力地挫败他们的企图。