0%

临床研究基本概念:随机对照试验(二)

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

随机试验中分配序列的生成:是机遇,不是选择(chance, not choice)

应用了随机分配,当我们终于向发表文章冲刺时,再严格的评论家也不能说很可能由于我们的偏好或者愚蠢导致了组间的差异偏倚。

一、摘要

  1. 随机对照试验提供了临床研究的金标准。但是,随机化也许是试验中最不容易被理解的部分。
  2. 任何不恰当的随机化皆导致选择偏倚和混杂偏倚。研究者应摒弃所有非随机的系统性分配方法。
  3. 受试者的分配入组应为一随机化的过程。
  4. 简单(非限制性)随机化法,类似重复直接抛硬币,是最基本的序列生成过程。此外,不论其他方法如何复杂精妙,在防止偏倚方面均不优于简单随机法。因而研究者应更多地使用这一方法而不是他们现在所用的方法。读者应期待并接受各组样本大小的不一致性。
  5. 一些其他复杂的有限制的随机化程序限制了在干预组间的无法预期的样本量不平衡的可能性。
  6. 最常用的限制性序列产生程序是区组随机化。如果应用这一方法,研究者应该随机改变区组的大小并使用较大的区组大小,特别是在非盲法试验中。
  7. 其他的限制性程序,如“瓮随机化法”,将简单随机和限制性随机法的好处结合起来,当达到某一平衡时最大限度地保护了不可预测性。
  8. 分层随机化的有效性依赖于应用某一种限制性随机化程序以达到分配序列在各层之间的平衡。
  9. 产生一个恰当的随机序列表花费的时间和精力很小,但可获得很大的科学精确性和可靠性。
  10. 研究者应致力于用恰当的资源来生成恰当的随机试验并清楚地报告他们所用的方法。

二、前言

(一)随机对照试验的历史

20年代,R.A Fisher发展了随机化理论并将其作为试验设计的一个基本原则。这一技术主要用在农业研究中。40年代后期,修订后的随机对照试验成功地应用于保健研究。这很大程度上是因为Austin Bradford Hill爵士在伦敦卫生及热带病医学学校的倡议和发展工作。通过努力他成功地发表了第一个应用随机数分配受试者的试验。此后随机化迅速成为保证无偏倚地比较各组的重要标准。

以前,研究者在设计试验时形式上回避对照试验。但是现在,随机对照试验成为方法学上医学研究的最佳标准(Panel 2)。随机对照试验特有的减少偏倚的能力依赖于研究者能够实施减少偏倚主要技巧:随机化。尽管随机分配参加试验的受试者是对照试验最主要的方面,可遗憾的是,这方面仍然是被理解得最少的。

本章我们讲述随机分配背后的合理性及其有关的实施步骤。随机化首先取决于两个内在相关但彼此独立的步骤,即产生一个不可预测的随机分配序列及隐藏此序列直至分配开始,即为分配隐藏(allocation concealment)。本章我们着重于如何产生这样一个序列。在下一章中,我们介绍分配隐藏。

(二)随机化的益处

  1. 在分配治疗方案时消除偏倚

    除非研究者审慎地确保他们的试验中包含了在疾病预后方面无偏倚的对比组,否则不同的健康干预措施之间的比较会引起误导。在预防或治疗方案的对照试验中,随机化通过避免选择偏倚和混杂偏倚产生无偏倚的比较组。

    这样的话,就避免了有意或无意将某个特别的病人纳入某一组而接受某种干预措施。避免偏倚的要点包括从决定选择可以入组试验的患者,到当患者入选后分配入组均要避免偏倚。当受试者入选后,研究者需要立刻将每个受试者按照与试验相符的特征登记,但不知道具体的分组。减少选择和混杂偏倚是随机化最重要的目的。随机化是小或中等效果研究的最好研究设计。

  2. 有利于对研究者、参加者和评估者进行治疗方法的设盲,包括可能使 用安慰剂

    盲法可在随机分配之后减少偏倚,但如果研究者用一个非随机化方案分配治疗方法,该减少偏倚的策略就会是困难的,甚至是不可能的。

  3. 允许用概率论(probability theory)来表示各治疗组之间的结局差异仅仅是由机遇(chance)造成的可能性

三、生成序列要寻找什么?

(一)伪装成随机化的非随机化方法(Non-random methods masquerading as random)

  1. 讽刺的是,许多研究者对随机化的印象是绝对非随机化的。他们经常错把随意法(haphazard approaches)和交替指定法(alternate assignment approaches)认为是随机化。有的医学研究者甚至认为与随机化法相反的方法是“准随机化(quasirandom)”,比如根据干预前的检查结果决定是否进入干预组。然而,准随机化如同“准妊娠”,它们都回避了定义。确实,不恰当的随机化导致了无限缺陷的可能。不恰当地执行随机化,会在试验中导致选择偏倚和混杂偏倚。
  2. 研究者有时候可能是无意识地用随机化的外衣掩饰其非随机化的方法。他们认为已经用所描述的方法进行随机化了,但是此方法显然是非随机的。依据出生日期、病例记录号、报告日期进行分配的方法,或者交替分配方法不是随机化的,更确切地说是系统性的(systematic occurrences)。
  3. 系统性方法在理论和实践方面都不能说成是随机化方法。举例来说,在某一人群中,某一周的某一天一个小孩的出生并不完全是一个机遇事件(a matter of chance)。
  4. 此外,系统性方法并不能做到分配隐藏。根据定义,系统分组通常无法做到充分的隐藏,因为其导致招募试验受试者的人在分配入组前预先知道如何进行治疗分组。如果研究者报告应用系统分组法,尤其假如其被伪装成是随机化的,读者应警惕其结果,因为这个错误意味着忽视了随机化过程。作者如能准确地报告其某一项研究为非随机化,并且解释他们如何控制混杂因素,这样的研究发现能让我们更信任。此时研究者们还应该讨论潜在的选择偏倚和信息偏倚,以便读者能考虑到其非随机研究的性质和偏倚从而判断其研究结果。

四、生成一个分组序列的方法

(一)简单(非限制性的)随机化方法/Simple (unrestricted) randomisation

  1. Panel 3初步但简练地描述了简单随机化。类似于公平地重复拋硬币(coin-tossing),尽管是最基本的分组方法,但它保证了对每个受试者接受的干预分配的不可预知性。不论其有多复杂精妙,没有其他的分组产生法能优于简单随机化法的不可预知性和避免偏倚的效果。

  2. 但是,简单随机化方法的不可预测性也可以是一个不利条件。由于仅凭机遇分组,小样本中的简单随机化,即1:1比例分组(one-to-one allocation ratio)可以形成各组之间完全不相同的样本大小。

    举例来说,总样本大小为20,简单随机化方法生成的约10%的分组序列会是3:7比率的不平衡比例,甚至更高。

  3. 这个难题随着样本大小的增长而减小。概率论确保了从长期来讲,各治疗组的样本大小不会严重的不平衡。对于一个样本量大于200的双臂试验(two-arm trial),其发生显著不平衡的机遇可以忽略。但是,样本量小于200的试验的期中分析(interim analyses)可能导致组间样本量差别甚大。

  4. 拋硬币(coin-tossing)、掷骰子(dice-throwing)以及分发事先洗好的牌是合理的生成简单完全随机序列的方法。所有这些手工抽签的方法理论上带来随机化分组的方案,但是在实践中经常变成非随机化。对随机化概念的曲解破坏了良好的目的。

    例如,通过公平地抛硬币将受试者以相等的可能性随机分配到两个干预组,研究者会受到诱惑而改变某次或一系列抛硬币的结果(如:一连串都是正面而无背面出现时)。

  5. 许多研究者没有真正理解概率论,他们把随机性理解为非随机。举例来说,一对夫妇有了三个男孩想要一个女孩,他们经常认为他们的第四个孩子当然会是一个女孩,但是实际上他们怀上一个女孩的概率还是50%。

  6. 一个同事经常在大学课堂上演示被误解了的随机化。他让班级里一半的学生按照恰当的随机化方法给出分组方案,让另一半学生按照他们个人所理解的随机化方法给出分组方案。使用真正的随机化方法分组的学生经常会长时间的连续执行某一个治疗或者另一种。相反的,按自己判断进行分组的则不会。一个班级又一个班级地显示出他们对随机化的误解。(可参见博文《泊松分布及其应用》)

  7. 此外,手工抽签的方法更难于执行并且无法验证。尽管抛硬币、掷色子、抽扑克牌都是可以接受的方法,但由于它们可能对随机性造成损害,执行困难,且缺乏验证试验,所以我们建议研究者避免使用。

  8. 不过无论使用哪种方法,研究者的报吿中都应该说明清楚。如果不做这样的阐述,读者应警惕这些研究结果。读者会最相信作者描述的用随机数字表(a table of random numbers)或者电脑随机数产生器分配受试者的序列生成方法,因为它们是可以提供验证试验的不可预测的、可靠的、简单的、可重复的方法。

  9. Panel 3: 简单随机化

    以一个随机数字表为基础,几乎有无数的方法可以生成一个简单随机序列。比如,用于两组平均分配的方法,预先决定读表格的方向:上、下、左、右或者对角线。然后选择一个任意的起始点(例如:第一行,第七个数):

    \[56\ 99\ 20\ 20\ 52\ 49\ 05\ 78\ 58\ 50\ 62\ 86\ 52\ 11\ 88\ \]

    \[31\ 60\ 26\ 13\ 69\ 74\ 80\ 71\ 48\ 73\ 72\ 18\ 60\ 58\ 20\ \]

    研究者可以将奇数和偶数分别等同于干预组A和B,用于平均分配。因此一系列的随机数05,78,58,50,62,86,52,11,88,31等代表分配至干预组A,B,B,B,B,B,B,A,B,A等。也可以选择将0049等同于A而5099等同于B,或者0009等同于A而1019等同于B,忽略所有大于19的数字。无数种选择中的任何一种都提供分组的可能性,研究者要严格遵照预先决定的方案执行。

(二)有限制的随机化方法(Restricted randomisation)

有限制的随机化方法控制了出现非期望的样本不平衡的概率。换句话说,如果研究者希望各治疗组的样本大小相等,应该使用限制随机化。

区组法(Blocking)

  1. 最常用的达成平衡随机化(balanced randomisation)的方法是通过随机排列区组法[random permuted blocks (blocking)]。

    例如,一个区组大小为6,依次纳入的每6个受试者为一组,通常3个被分配到一个治疗组,另外3个被分配到另一组。但是,分配比率可以是不平均的。例如,每个按照2:1比例分配的大小为6的区组中,其中4个人被分配到一个治疗组,2个被分配到另一治疗组。这种方法可以很容易扩展到两个以上的治疗方案。

    双盲(double blind)是指:研究对象和研究者都不了解试验分组情况,而是由研究设计者来安排和控制全部试验。

  2. 有了区组法,区组的大小可以在试验的全程中固定或者随机的变化。当然,如果应用区组法的随机化研究不是双盲的,区组的大小应该随机变化以减少负责招募受试者的人员看到分配表的可能。如果区组的样本大小是固定的,特别样本量小时(≤6个受试者),则区组样本的大小在非双盲研究中能被破译。当分配后的治疗分组能被获知后,从前一次分配可以辨识出一个序列。然后随后的分配就能被精确的预计到,无论分配隐藏的效果如何都引入了选择偏倚。较大的区组(如10或20)比较小的区组(如4或6)有助于保持不可预知性,随机改变区组大小亦然。

  3. 进行随机对照试验的研究者经常使用区组法。研究者简单地报告说他们进行区组化了,这会使得读者怀疑。研究者们应该明确地报告如何区组化,分组比例(通常是1:1),选择的随机方法(如,随机数表或者电脑随机数产生器),以及区组样本的大小(如果随机改变区组大小的话)。

    较小的区组可能会出现以下情况(两组,区组长度为4):

    B A B ? →肯定是A。

    A A ? ? →肯定是B B。

    这样会带来选择偏倚。如何避免这种情况呢?

    可以设计为随机长度的区组,如区组长度依次为4、6、6、8、6、4、8、8、4……

  4. 随机排列区组法如何实施:以区组长度4为例

    • 一个区组内的4个研究对象可以有6种排列方式:
      • AABB
      • ABAB
      • ABBA
      • BAAB
      • BABA
      • BBAA
    • 确定好所有的排列形式后,接下来需要将6个区组随机排列。我们可以用各种方式(如SPSS、Excel、SAS等)产生一串随机数字,比如:925912648239817213……
    • 因为只有6种排列方式,因此可以只选择1-6之间的数字,251264231213……
    • 按照上述随机数字排列区组。至此,区组随机化就完成了,两组人数完全相等。

随机分配规则(Random allocation rule)

  1. 随机分配规则是限制的最简单形式。对某一特定的整体样本大小,它仅确保在研究结束时样本大小相等。通常,研究者定义一个整体样本大小然后随机选择样本中的一个子集分配到A组,剩下的分配到B组。例如,总样本量大小为200,在一个帽子里放100只A组的球和100只B组的球,将它们随机拿出来并且不再放回帽子里,这就是随机分配规则的符号化。
  2. 生成序列时会随机指定100个A组和B组的分配顺序,这个方法将整个研究总体当作一个大的区组,即此平衡通常只在试验结束时达成,而非贯彻整个试验过程。
  3. 随机分配规则保持了简单完全随机的许多优点,尤其对统计分析而言;但是有更大的出现变量不平衡,即机遇性混杂(chance confounding)的概率。值得牢记的是这种不平衡在样本量更大时变得微不足道。此外,随机分配规则相较于简单完全随机化,不可预测性有所影响。特别是在一个非双盲试验中,通过猜测分配(序列)可导入选择偏倚(尤其在接近试验结束时)。但是这显然不会存在于区组较小的排列区组随机化方法中。
  4. 研究者有时通过限制性洗牌法(restricted shuffled approach)执行随机分配规则,包括确认样本大小、按分配比率为每一治疗方案准备特殊的卡片及指定一个数字,将卡片放在信封里,打乱它们产生一个无替换的随机分组。许多研究者可能使用这一手段但很少称之为限制性洗牌法或者随机分配规则。取而代之的,他们报告说应用信封或洗牌法(use of envelopes or shuffling)。的确,严格洗牌(打乱)手段将分配序列生成和分配隐藏整合在一个过程里。洗牌法决定分配序列,这不是最主要的。最重要的是,使用信封进行充分的分配隐藏保证了能充分应用有限制的洗牌法。

偏性掷币法、瓮随机化法、替换随机化法和最小化法,又被称为动态随机分组

偏性掷币法和瓮随机化法(Biased coin and urn randomisation)

  1. 偏性掷币设计(Biased-coin design)可以达到与区组法相同的目的而无需强制严格平均。因而它几乎完全保留了简单随机法的不可预测性。偏性掷币设计在试验过程中改变分配概率以纠正可能发生的不平衡性(Panel 4)。研究最广泛的是将适应性偏性掷币设计(Adaptive bias-coin designs)和瓮随机化设计结合起来的方法,即基于不平衡性的程度改变分组的概率。
  2. 偏性掷币设计,包括瓮随机设计(urn design),在报告中不常见,但它们可能使用得更频繁。利用电脑比真的从瓮中拿球更简单、更可行,正如使用电脑比掷币进行简单随机法更简单和更可靠一样。非盲法试验中的不可预测性是最重要的,并且因需要样本大小平衡而排除了使用简单随机法,瓮随机化设计就变得尤其重要。无论排列区组法使用固定或随机改变区组样本大小的方式,瓮随机设计的不不可预测性均胜过排列区组法。如果读者遇到一个偏性掷币法或瓮随机设计,则应认为其具有恰当的序列生成过程。
  3. 偏性掷币法和瓮随机化法
    • 偏性掷币设计在试验过程中通过改变分配概率从而在各组人数间纠正可能发生的不平衡性。例如:研究者们可能使用均等分组的概率来进行简单随机化(两组试验,0.50:0.50),直至分配到各组的数字差异性始终低于预设的限定值。如果差异性恰达到限定值,则研究者要提高人数较少那组的分配概率(如0.6:0.4)。恰当地执行偏性掷币设计能达到平衡同时保留与简单随机法有关的最大的不可预测性。
    • 动态偏性掷币设计,结合被研究得最为广泛的瓮随机化,是基于不平衡性的程度而改变分组概率的方法。瓮随机化设计按UD(α,β)设计,最初的蓝色球和绿色球的数量都是α,β代表放到瓮里的与选到的球颜色相反的球的数目(α和β是任何合理的非负数)。例如UD(2,1),一个瓮里有两个蓝球和两个绿球:以0.50/0.50的概率开始分组(α=2)。随机地拿一个球并以它代替治疗方案分组:蓝色代表A治疗,绿色代表B治疗。每次额外放一个(β=1)和所选球颜色相反的球入瓮。如果先选到一个蓝球,则首次分组后瓮里有两个蓝球和三个绿球:按0.40/0.60进行下次分组。如果第二次再选到一个蓝球,则第二次分组后罐子里有两个蓝球和四个绿球:0.33/0.67的概率进行下次分组。每次分组重复这种拿球程序。分配概率受之前的分组情况影响而波动。

替换随机化法(Replacement randomisation)

  1. 重复简单随机分配方案直到达成某一预期的平衡。试验研究者应建立一个用于替换的客观评价系统。例如,一个300人参与的试验,研究者应注明假如各组间大小的差异超过20,则他们应替换一个简单随机化方案。如果第一次生成的方案的差异大于20,那么他们应生成一个全新的简单随机化方案以替换第一次的尝试并按照他们关于差异度(disparity)的客观标准检查之。他们将如此重复直至有一个符合他们的标准的简单随机化方案。尽管替换随机化方法看上去有些武断,只要是在实验开始前执行这个方法,那么它就是充分的。
  2. 此外,它易于实施,能确保合理化的平衡,并包括了不可预测性。
  3. 其主要的缺陷是不能确保期中分析所需要的试验全程的平衡性。尽管使用得少,这个方法是最早产生的有限制的随机化方法的形式。

最小化法(Minimisation)

  1. 比如某研究者要做A、B两种术式的近期疗效研究,采用RCT设计,在研究开展前该研究者就认识到:研究对象的年龄、疾病分期和病理类型是影响疗效好坏的重要因素。所以在研究分组中,研究者想达到在随机分组之后,A、B两个术式组在年龄、疾病分期和病理类型上基本保持一致。这样再去探索A、B两组的疗效,就会比较好解释。

  2. 基于这个“均衡多个影响因素”的目的,最小化随机就比较合适。它的实现过程是:

    • 确定需要平衡的影响因素、各自的权重和目标组分配概率;
    • 第一个研究对象完全随机分组;
    • 从第二个研究对象开始,计算该研究对象被分组特定组后,两组间的预后因素差异大小;
    • 按照差异最小化的原则,将该研究对象按照分配概率进行随机分组。
    • 这个计算过程从第二例研究对象入组开始,就被一直计算着,每入组一个研究对象就需要计算一次,听起来比较麻烦,下面举例说明(由于差异大小有不同计算方法,下面采用极差法举例)。
  3. 假设年龄、疾病分期和病理类型的权重分别是1、2、3,目前入组的16个病人分组如下图:

    组别 Age<50 Age≥50 疾病分期1期 疾病分期2期 病理a型 病理b型
    A组 3 5 3 5 4 4
    B组 4 4 3 5 3 5
    • 第17个患者是≥50岁,1期b型,计算两组差异大小:
    • 假设入A组,差异为\((6-4) \times 1 +(4-3)\times 2+(5-5)\times 3=4\)
    • 假设入B组,差异为\((5-5) \times 1 +(4-3)\times 2+(6-4)\times 3=8\)
    • 这时候根据差异最小化原则,我们优先将第17个研究对象分入A组。
  4. 最小化法有明显的优势:能够很好地平衡影响因素在两组的构成情况。但是它也存在缺点,就是随机分组过程复杂,另外研究结果的数据统计分析是否可以采用常规的统计方法尚有些争议。

  5. 最小化随机分组过程的复杂,目前已基本不是问题,随着智能手机软件的广泛应用,这些简单的计算都很容易实现。

  6. 看了上面的例子,也许你会觉得最小化随机没有必要,完全可以通过分层区组随机来实现。但是如果样本量较小且分层因素较多,分层区组随机开展起来就比较困难。有研究显示,在将100人随机分到2组时,最小化随机可以同时保障20多个影响因素的均能性,而此时分层随机就不容易进行。所以最小化随机一般用于需要均衡多个影响因素,且样本量不大的随机分组过程。

  7. 最小化法(Minimisation)体现了分层和限制随机化的基本观念。它可以使得不大的几个组之间在几个特征上非常接近。最小化按其最严格的本意来说可被看做非随机法,但是在应用中,我们倾向于取其随机化的特征部分。最小化有支持者有反对者。在任何情况下,使用最小化法的研究者都应防止试验执行者获知随后的分配信息及任何有助于猜测随后分组情况的信息。

(三)分层随机化方法(Stratified randomisation)

  1. 随机化可以在治疗组间的基线特征上产生机遇不平衡性(chance imbalances)。研究者有时对重要的预后因素进行预随机化分层以避免不平衡性,如年龄或疾病的严重程度。在这种情况下,研究者应注明限制性的方法(通常是区组法)。为了获得分层的益处,研究者必须使用一种有限制的随机化方案以按潜在的重要预后因素对参加试验的受试者分层,在各层水平产生独立的随机化分组方案。没有限制的分层什么也不能达成(即安慰剂分层)。
  2. 试验中的分层在方法学上是有效并有用的,但是理论和实用的问题限制了它在计划的新试验中的使用。在大型试验中,随机化总是能产生平衡的分组,而分层除了增加复杂性之外,并不能带来什么好处。此外,如果不平衡性增加,研究者可以用统计学的方法在预后变量上校正(最好预先计划好)。最值得考虑的是分层增加的复杂性可能降低了试验合作者的参与性,或者在繁忙的诊所内招募受试者的合作性,任何一条都影响招募。因此,在大型试验中进行分层带来的益处少,且同时实践上有缺点。
  3. 但是注意一个重要的例外,在多中心研究中按中心分层既确保了有益之处,又不会增加各中心操作的复杂性。而在有的大型多中心试验中,试验者通过中心随机化来落实分配序列,这也可能是一种例外。中心随机化(central randomisation)减少了实践中分层的不利因素,且各中心可通过小样本量获得收益。
  4. 分层在小型试验中可能有用,因为它能避免有关预后因素的严重不平衡。它能提供足够的平衡性(有关分层因素的)和可能提高一点统计学把握度和精确性。但是一旦每组受试者超过50人,分层所获得的好处就减少了。此外,如果研究者在各亚层之间寻找精确的平衡性,分层可能直接导致负面效果。为了获得准确的平衡,研究者通常使用小的、固定的区组样本大小,其结果是损害了不可预测性。

五、将序列生成和序列实施分开

  1. 研究者经常忽略(通常不是故意的)随机对照研究设计和报告的另一个重要成分。在所有方法中,制定生成分配方案(顺序)的人不应该参与确定受试者是否适合入选,也不参与实施治疗方案或者分析结果。否则的话,他通常有权限获得分配序列表并因此有机会导致偏倚。
  2. 试验中这个部分的错误可以形成一个导致偏倚乘虚而入的缝隙。CONSORT指南(CONSORT statement)的第10条(实施)提到了有关的内容。
  3. 因此,研究者应在报告中陈述谁生成了分配序列,谁入选受试者及谁分配入选的受试者。
  4. 生成分配序列方案的人应与入选及分配受试者的人不同。然而,在某些情况下,研究者可能不得不既要制定生成分配序列,又要入选或分配受试者。在这种情况下,研究者需保证分配序列方案的不可预测性,并将之锁起来,防止他人尤其是自己拿到。

六、小结

  1. 随机对照试验建立了医学研究中最好的理论标准。其关键词是随机化,并需要恰当实施。
  2. 随机序列的生成花费的时间和精力很少,但是之后可获得极大的科学的精确性和可信性。
  3. 研究者应该投入合适的资源以生成恰当的序列并清晰地报告他们的方法。