0%

  1. 在任意的页面右上角点击 +,然后点击新建仓库 New repository。

  2. 为你的仓库创建一个简短便于记忆的名字。例如 “PPT”。

  3. 为你的仓库添加一个描述(非必须的)。

    例如 “My first repository on GitHub”。

  4. 选择你的仓库类型为公有或者私有:

    • Public:公有仓库对于一个刚入门的新手来说是一个不错的选择。这些仓库在 GitHub上对于每个人是可见,你可以从协作型社区中受益。
    • Private:私有仓库需要更多的步骤。它们只对于你来说是可用的,这个仓库的所有者属于你和你所指定要分享的合作者。私有仓库仅对付费账户可用。
  5. 选择Initialize this repository with a README。

  6. 点击Create repository。

说明
1. 参考自阮一峰博客中的文章:贝叶斯推断及其互联网应用(一)

一、条件概率(Conditional probability)

  1. 条件概率,就是指在事件A发生的情况下,事件B发生的概率,用\(P(B\mid{A})\)来表示。
  2. 根据文氏图,可以很清楚地看到在事件A发生的情况下,事件B发生的概率就是\(P(A\bigcap{B})\)除以\(P(A)\)\[P(B\mid{A})=\cfrac{P(A\bigcap{B})}{P(A)}\] 因此:\[P({A} \bigcap {B})=P(B\mid{A})\times P(A)\] 同理可得:\[P({A} \bigcap {B})=P(A\mid{B})\times P(B)\] 所以:\[P(B\mid{A})\times P(A)= P(A\mid{B})\times P(B)\] 即:\[P(A\mid{B})= \cfrac{P(B\mid{A})\times P(A)}{P(B)} \]

二、全概率公式

假定样本空间S,是两个事件A与A'的和。

上图中,红色部分是事件A,绿色部分是事件A',它们共同构成了样本空间S。

在这种情况下,事件B可以划分成两个部分。

即:\[P(B) = P({B} \bigcap {A}) + P({B} \bigcap {A'})\]

在之前的推导当中,我们已知:\[P({A} \bigcap {B})=P(B\mid{A})\times P(A)\] 所以:\[P(B) = P(B\mid{A})\times P(A) + P(B\mid{A'})\times P(A')\]\(P(B)\)代入上一节中的条件概率公式 $P(A)= $ \[P(A\mid{B})= \cfrac{P(B\mid{A})\times P(A)}{P(B\mid{A})\times P(A) + P(B\mid{A'})\times P(A')} \]

三、贝叶斯定理及贝叶斯推断

对条件概率公式进行变形,可以得到如下形式: \[P(A\mid{B})= \cfrac{P(B\mid{A})}{P(B)} \times P(A)\]

  • \(P(A)\)称为"先验概率"(Prior Probability),即在B事件发生之前,我们对A事件概率的一个判断。
  • \(P(A\mid{B})\)称为"后验概率"(Posterior Probability),即在B事件发生之后,我们对A事件概率的重新评估。
  • \(\cfrac{P(B\mid{A})}{P(B)}\)称为"可能性函数"(likelihood),这是一个调整因子,使得预估概率更接近真实概率。

所以,条件概率可以理解成: 后验概率 = 先验概率 × 调整因子

这就是贝叶斯推断的含义。我们先预估一个"先验概率",然后加入实验结果,看这个实验到底是增强还是削弱了"先验概率",由此得到更接近事实的"后验概率"。

  • 在这里,如果"可能性函数"\(\cfrac{P(B\mid{A})}{P(B)}\)>1,意味着"先验概率"被增强,事件A的发生的可能性变大;
  • 如果"可能性函数"\(\cfrac{P(B\mid{A})}{P(B)}\)=1,意味着B事件无助于判断事件A的可能性;
  • 如果"可能性函数"\(\cfrac{P(B\mid{A})}{P(B)}\)<1,意味着"先验概率"被削弱,事件A的可能性变小。

四、水果糖的例子

问题:两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?

我们假定,H1表示一号碗,H2表示二号碗。由于这两个碗是一样的,所以\(P(H_1)\) = \(P(H_2)\),也就是说,在取出水果糖之前,这两个碗被选中的概率相同。因此,\(P(H_1)\) = 0.5,我们把这个概率就叫做"先验概率",即没有做实验之前,来自一号碗的概率是0.5。

再假定,E表示水果糖,所以问题就变成了在已知E的情况下,来自一号碗的概率有多大,即求\(P(H_1\mid{E})\)。我们把这个概率叫做"后验概率",即在E事件发生之后,对P(H1)的修正。

根据条件概率公式,得到 \[P(H_1\mid{E}) = P(H_1) \times \cfrac{P(E\mid{H_1})}{P(E)}\]

已知,\(P(H_1)\) = 0.5,\(P(E\mid{H_1})\)为一号碗中取出水果糖的概率,等于0.75,那么求出\(P(E)\)就可以得到答案。

根据全概率公式: \[P(E)=P(E\mid{H_1}) \times P(H_1) +P(E\mid{H_2}) \times P(H_2)\]

所以: \[P(E)=0.75\times0.5+0.5\times0.5=0.625\]

五、假阳性问题

已知某种疾病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性(灵敏度为99%)。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性(特异度为95%)。现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?

假定A事件表示得病,那么\(P(A)\)为0.001。这就是"先验概率",即没有做试验之前,我们预计的发病率。

再假定B事件表示阳性,那么要计算的就是\(P(A\mid{B})\)。这就是"后验概率",即做了试验以后,对发病率的估计。

\[P(A\mid{B})= \cfrac{P(B\mid{A})}{P(B\mid{A})\times P(A) + P(B\mid{\overline {A}})\times P(\overline {A})} \times P(A)\]

\[\approx \cfrac{0.99}{0.99 \times 0.001+0.05\times 0.999} \times {0.001} \]

我们得到了一个惊人的结果,\(P(A\mid{B})\)约等于0.019。也就是说,即使检验呈现阳性,病人得病的概率,也只是从0.1%增加到了2%左右。这就是所谓的"假阳性",即阳性结果完全不足以说明病人得病。

为什么会这样?为什么这种检验的准确率高达99%,但是可信度却不到2%?

首先是与误报率(5%)太高有关,其次也和发病率太低(0.1%)有关。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research
???

一、摘要

在21世纪,我们对于能够快速反应的救护车服务习以为常。救护车能够可靠地将重病员和伤者送到医院,同时伤病员在途中也可以获得熟练的复苏和医疗护理。然而在19世纪,并没有这样的服务,人们只能自己通过各种方式将伤病员送到医院。 本文简要概述了伦敦救护车服务的形成历史,并描述了伦敦以外救护车服务的发展历史。

本文描绘了一段时期中英国人生活的图景,正因为政府在大多数医疗保健领域的自由放任的态度逐渐形成了今天的国民健康服务(National Health Service,NHS)。历史揭示了每个时期政治气候的思维方式。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

随机试验中的分配隐藏:对抗破译(defending against deciphering)

一、摘要

  1. 恰当的随机化有赖于充分的分配隐藏。分配隐藏程序使得临床医师和受试者不知道下一例的分组情况。没有它,即使已经生成了恰当的随机分配序列也可以被推翻。
  2. 随机对照试验至关重要的无偏倚性质常与实施分配隐藏的过程中遇到的麻烦产生冲突。
  3. 恰当执行分配隐藏给研究实施者增添麻烦,这会让临床医师感到不高兴。随机对照试验对临床医师而言是一个诅咒。许多参与试验的人会试图破译分组的序列,这一行为违反了随机化。
  4. 对于一些实施试验者而言,破译分配序列经常成为一项无法抗拒的智力挑战。无论他们的动机是单纯的或恶意的,这种意图都损害了试验的有效性。
  5. 事实上,不充分的分配隐藏通常会导致高于预计的治疗效果,但偏倚在两个方向上均可出现。
  6. 试验研究者会竭尽所能地努力破译分配序列,因而试验设计者必须在设计试验时也努力聪明地防止破译发生。
  7. 研究者们必须恰当运用分配隐藏以有效地避免选择和混杂偏倚。
  8. 此外,研究者应报告有关重要预后变量的基线比较。
  9. 然而基线特征的假设检验是多余的,并且,如果其导致研究者回避报告任何的基线不平衡则可能是有害的。
  10. 医学研究会认为关于使用链霉素治疗肺结核的对照试验是里程碑的原因,并不像通常所认为的那样只是由于应用了产生分配顺序的随机数字表,更是因为其清晰地讲述了用来向所有参与入选病人的人员隐藏分组顺序的防范方案。

二、前言

生成一个不可预测的随机分配序列是随机对照试验中第一个最重要的随机化要素。实施这个序列,至少要到患者被分配至各自的组之前保持其隐藏即分配隐藏(allocation concealment)是第二个最重要的元素,如果缺乏分配隐藏则试验中的随机化就会崩溃。

作为随机化的一个直接结果,许多随机对照试验的报告中的第一个表格描述了各个比较组之间的基线特征。研究者们应该描述他们进行试验的人群并提供各组之间的基线资料的对照以使得读者评价其可比性。本章我们着重阐述恰当进行分配隐藏和基线特征报告的方法。

三、分配隐藏

研究者对分配隐藏有很多的错误概念。恰当的分配隐藏是严格执行某一随机分配序列而预先不知道分配治疗方案的保障。分配隐藏与实施分配序列的技术有关,而与生成分配序列的技术无关。然而有人在讨论分配隐藏的时候会离题万里地说到拋硬币法(flipping coins)或使用随机数字表(use of random number tables)。这种离题的讨论完全是方法学上的前言不搭后语;分配隐藏和序列生成完全不同。此外,有的研究者会将分配隐藏和隐藏治疗方案混淆起来。

没有充分的分配隐藏,即使随机化了,不可预测的分配序列也会被损坏。按照现有的关于预后的观点,有的患者可能会被分配到被认为不适合的治疗组,如果事先知道下一个分组方案,有的研究者会因此而排除这个患者入组。同样地,预知下一个分组也可以将某些受试者分配至所认为的合适的组,这很简单,通过推迟受试者入选直至下一次合适的分配出现就行了。防止预知如何分配治疗方案可以避免这些偏倚。分配隐藏防止那些招募入组受试者的人知道随后的分组。必须在不知道后续分组的情况下决定纳入或拒绝一个受试者并且获得知情同意书。

(一)分配隐藏的重要性

  1. 分配隐藏做得不好的试验倾向于夸大治疗效果。此外,隐藏得最差的试验在结果中产生更大的异质性(即比起做得好的研究,差的研究试验的计算结果明显上下波动)。这些有试验依据的证据证实了不充分的分配隐藏致使试验中出现偏倚。

  2. 事实上,缺乏充分的分配隐藏的话,不管有没有一个随机(不可预测)序列都没什么不同了。假定研究者们用随机数字表生成一个合适的分配序列,但是,之后他们将这个序列贴在一个告示板上,于是任何一个参加此试验的人都能看到随后的分组。类似的事情还有通过将方法指导卡片(method indicator cards)放在一个半透明的信封中来实施分配顺序。拿着这个信封对着亮着的灯,这个不充分的分配隐藏程序就很简单地被破译了。有了告示板和信封,负责纳入受试者的人可以察觉到随后的治疗分组,随即将有较好的预后的人分至试验组,而预后较差的人分至对照组,反之亦然。即使有了合适的随机序列,试验中也易出现偏倚。

  3. 研究者因此应确保在随机设计中有合适的序列生成和充分的分配隐藏。这两方面的任意一个错误都将损害随机化,导致不正确的结果。例如,某试验的结果显示一种治疗的效果更好,然而这其实仅仅反映了分配过程的偏倚;或者试验显示无效而实际上治疗效果是有害的。此外,这种试验的结果可以比一个明晰的观察研究所得出的类似结果更有毁坏性。人们常假定并能意识到观察性试验中有偏倚,统计分析和最终阐述时会对此加以考虑。相反地,贴着随机化标签的研究经常被认为是没有偏倚的,而不充分的报告通常会掩盖它们的不足。

  4. 随机对照试验的可信度(credibility)为临床和预防管理中更快更大程度的改变提供支持。如果不是基于最好的研究,结果则会是浪费有限的健康资源,甚至更糟的是会损害人们的健康。因此,随机对照试验的(well-deserved)的可信度产生了间接的责任。不恰当的随机试验很容易造成错误判断。

(二)破译的各种情况

  1. 有试验依据的研究发现提示研究者有时候会破坏随机化,尽管他们几乎不记录这些颠覆。无论如何,当研究者不记名地在流行病学研讨会上回应质疑的时候,常常涉及分配设计被破坏的例子。
  2. 此类例子的不同个案描述了从简单到复杂的操作范围。大部分分配隐藏设计被研究者破译是因为其方法不够充分。例如:
    • 或是贴在告示板上。
    • 或是拿着半透明信封对着灯光可见而解码随后的分组,然后,研究者们就可以改变入组或将受试者分配至特殊的研究组。
    • 有的则是打开未封口的分组信封,感觉信封的不同重量或者简单地打开未编号的信封直至他们找到某种想要的治疗方案。
  3. 研究者们破译一个较好的分配隐藏设计则比较困难。然而,实际上总会有人描述其最终智取(破译)了某个方案。
    • 比如,某些医生依次拿着编号的、不透明的、封口的信封在放射科对着热灯(一种非常明亮的白炽灯泡)以试图破译分组。
    • 在使用中心随机化的研究中,试验研究者通过电话向中心一次性索要其后几个人的分组,他们至少在一两种情况下能得到分组顺序。
    • 在用依序编号的药物容器的试验中,有人依靠容器标签的外表来破译分组。
    • 有人在半夜看见某个主治医师为了寻找分配列表搜遍了办公室里的主要研究者的文件,于是她放弃了通过容器的外包装解码的方法。她首先想到的是:这个主治医师可真聪明!鉴于她在方法学上的天真和无知,她没有意识到这种行为会导致试验的偏倚。
  4. 尽管研究者理论上明白研究需要无偏倚,可一旦他们加入某试验有时会无法保持无偏倚。研究者可能希望某些病人从某种治疗中获益,或试验结果能证实他们的想法。恰当完成的随机对照试验的程序会阻止这种临床倾向性,因而致使研究者进行试验时感到困扰。
  5. 有的科学家的目的是蓄意破坏他们的结果。然而,许多破译随机序列的意图直接表现出缺乏对这一行为科学后果的认知。此外,对于有的人,破译分配设计可能常常是一个无法抗拒的巨大的智力挑战。如Oscar Wilde所写,“消除诱惑的唯一方法是向其屈服”。然而无论他的动机纯洁与否,这种意图损害了试验的有效性(validity)。
  6. 研究者必须认识到人性中的好奇心,设立方法学的安全防范,恰当的分配隐藏无形中会阻止对随机化的破坏,在实际中使试验避免选择和混杂偏倚。
  7. 设计恰当的分配方案要花时间、精力和思考。在全面地检查最后方案前,研究者不应该开始委派任务。研究实施者会竭尽所能地破译分配序列,所以试验设计者必须在设计试验时也努力聪明地防止破译发生。

(三)用分配隐藏寻找什么?

  1. 研究者认为按下列方法进行分配隐藏是充分的:

    • 顺序编号(sequentially numbered)
    • 不透明(opaque)
    • 封口的信封(sealed envelopes,SNOSE)
    • 药房控制
    • 编号或编码药物容器
    • 中心随机法(例如电话告知研究办公室)
    • 或其他描述分配隐藏:如一个可靠的计算机辅助方法。
  2. 这些标准建立了最简单的方法学标准,但仅约1/4的试验符合标准。通过从已发表的报告中评估分配隐藏,读者会很容易明白如何合理达成这些标准(Panel 1)。不过毫无疑问,那些最简标准是能被超越的,如果研究者提供的描述不仅结合了最简标准且有其他更严格标准的元素,读者更能相信试验已经防止了选择和混杂偏倚(Panel 2)。

  3. 信封分配隐藏方法较其他的方法更易怀疑被人巧妙地操纵,因而并不理想。如果研究者使用信封法,他们应严谨地设计并监察(monitor)分配过程以确保序列隐藏。除了使用顺序编号、不透明、封口的信封外,他们应确保事先给信封编号,且只有在相应的信封上写上受试者姓名和其他细节信息之后才能按编号顺序打开之。我们也推荐在信封内面使用压力复写纸或碳纸,以便上述信息能留在分配表上,从而建立一个有价值的印迹用于稽查。在信封里放硬纸板或铝箔可以进一步避免通过热光源探知分组。

  4. 药房环节也可以造成分配隐藏和序列生成的困难。尽管提到由药房进行分组的报告通常已经被归入“此试验已经使用了一种可接受的分配隐藏机制”的范围内,但药剂师在试验中恰当地应用随机法的依从性如何并不清楚。

    • 研究者应该报告所采用的预防措施。我们知道药剂师违反分组时间表的例子。
    • 比如:一个大药房每随机分组一个受试者可以获得150美元。在试验期间,某一周末之后,这家药房用完了两种比较药物中的一种,因此将所有新入组的受试者都分配至另一个药物组,以避免减慢入组速度。而另一家药房则用交替分组来随机化患者。研究者不应该假定药剂师和其他试验实施者都了解随机对照试验的原理,研究者必须确保他们的研究搭档坚持执行恰当的试验程序。在最简标准外,如果研究者说明他们知道或核查药房的分配机制,读者能对其结果更有信心。
  5. 使用连续编号容器可防止预测治疗分组,但是这只有在研究者采用了适当防范下才成立。除最简标准外,报告的作者们还应该说明防范措施的进一步细节,确保所有的容器是防止拆封篡改的、等重的、外观相似的,并且建立某些稽查轨迹(如在空瓶或者容器上写受试者的姓名),这些可以帮助读者评估是否随机化已经被成功隐藏。同样地,尽管中心随机化是一种优秀的分配隐藏方法,仍需建立并执行有效的试验方法。研究者们至少应该说明联络的方法(如:电话、传真、电邮),保证在随机化之前入组受试者的严格程序,且全面地训练中心随机办公室中的每个人,所有的细节在做试验和写试验报告时都要被考虑到。

  6. 其他的方法也可能满足足够的分配隐藏。读者应该寻找描述中关于隐藏的可信成分。如:可靠的计算机辅助方法可以通过保护分组信息直到保证和确认入组而做到分配隐藏。确实,自动分组系统可能会变得更常见。但是,一个仅贮存或单纯地保护分组信息的简单的电脑系统,会变得透明得如同把随机化表贴在公告板上一样。在描述一个分配隐藏方法时,研究者应展示分配隐藏背后的原理及它们是如何达到标准的。

  7. 研究者在报告中经常未能对分配隐藏进行哪怕是最少的描述,致使读者不能评估随机对照试验。幸运的是,自从更多的医学杂志开始采用随机对照试验的报告标准,情况开始在改善。此外,由于发表研究报告的促进作用,更多的研究者将能够设计和实施更好的试验。

  8. Panel 1(描述分配隐藏):

    • “……将药物分配和编码的数字结合起来。每10个数字的区组从一个中心办公室被寄至每个中心随机化负责人。这个人(药剂师或护士,不参加受试者诊疗且与此中心的研究者无关)负责分配和准备,并负责试验输液。试验输液在另外一个不同的中心准备好,每24小时送给床旁护士,护士按合适的速率给患者输液。因而随机化顺序对所有的护理工作人员、病房医生和其他试验者都隐藏。”

    • “……隐藏于顺序编码的、密封的、不透明的信封中,并且由两个中心的医院药剂师保管。”

    • “治疗方案由中心证实入选标准正确性后电话分配……”

    • “由Glenfield医院药剂科进行随机化,分配研究药物并持有试验码,这些都会在研究结束后揭盲。”

    • “不同的安慰剂和治疗区组由一个药品号标识(medication number),然后按某一顺序分发给患者。此随机名单准备了两份,一份由包装部门使用……提供泡罩包装(blister packs)的20粒胶囊供10天的早晚服用。这些泡罩分装放在有标签的盒子里。例如:每个患者的每剂量药物放在一个盒子里。

      泡罩包装:又称铝塑包装或水泡眼包装,常用的药物包装方法之一

    • “个体由计算机产生的名单随机化,集中保存,没有哪个中心知道任何患者分配的治疗方案。每个患者被分发有标志的容器和一个额外的容器盒,以供中心医生需要开处方增至15mg或20mg的西布曲明或安慰剂时使用。”

  9. Panel 2(最简及拓展标准:充分的分配隐藏设计)

    关于充分的分配隐藏设计的最简描述 附加描述提供更好的保证分配隐藏的措施
    顺序编号,不透明,密封的信封(SNOSE) (1)将受试者的详细信息写在信封上之后才可以依次打开信封;
    (2)信封内面的压力敏感复写纸或碳纸可以将信息转录到分配卡上(形成监察痕迹);
    (3)信封内放硬纸板或铝箔使得信封在强光下不透明 (不透视)
    顺序编号的容器 所有的容器都是防止拆封篡改、等重、外观相似的
    药房控制 (1)文章中表明是由研究者设立、验证或者至少是批准的给药房的一个恰当的随机化方案;
    (2)文章中表明研究者指导药房进行恰当的分配隐藏
    中心随机化 联系方法(如:电话、传真、电子邮件),严格的程序确保在随机化前入组,以及对中心随机化办公室的每个人全面培训

四、基线比较(Baseline comparisons)

(一)基线特征表格

  1. 尽管随机化避免了系统偏倚,但这不一定就会产生在预后因素方面完美平衡的分组。干预组间仍留有机遇所致的差异(如:机遇分配不均)。不过统计检验可以解释机遇差异。随机化的过程是显著性检验的基础,并且无论预后因素是已知或未知的,随机化的过程都和预后因素无关。

  2. 无论如何,研究者应该在一个表格中按照治疗组别展示基线特征。这些信息描述进行试验所在的假设人群,且让读者看到外推至其他人群的可能性。此外,它让医师将结论推论至特定的患者。

  3. 基线特征表格也让读者们比较试验各组在基线时重要的人口学和临床特征。然而,我们通常会不适当的使用假设检验(如表中的P)去比较我们所关注的特征。这些检验测定观察到的差异可能是因机遇产生的可能性。但是,在恰当的随机试验中观察到的差异按定义来说都是因机遇产生的。如Altman所言,“这个程序明显是多余的”。

    特征 抗生素组(n=116) 安慰剂组(n=129)
    年龄(mean [SD]) (years) 30.2 (5.2) 31.1 (5.9)
    体重(median [25th,75th centiles]) (kg) 141 (122, 181) 144 (123, 188)
    未产妇(number, %) 62 (53%) 63 (49%)
    既往盆腔炎(number, %) 24 (21%) 28 (22%)
  4. 对基线特征的假设检验不仅是不必要的,可能还是有害的。

    • 研究者用假设检验比较基线特征,报告的显著结果比预计由机遇产生的差异要少。
    • 关于这种差别的合理解释是:有的研究者可能决定不报告显著的差异,因为他们相信隐瞒了这个信息,能够增加他们报告的可信度。
    • 假设检验间接导致研究者们隐瞒基线不平衡,因而其除了是多余的,也是有害的。

(二)基线特征关注什么

  1. 研究者应该报告关于重要预后变量的基线比较。读者应该在考虑所测得的变量预后强度和已经产生的机遇不平衡的程度的基础上观察各组的可比性,而不要根据基线的统计学显著性检验考虑组间的可比性。
  2. 上面的表格提供了有效的格式来陈述基线特征。
    • 对于连续变量,如年龄、体重,研究者应用一个均值和一种检测变异度(variability)的方法,通常是平均值和标准差来描述。
    • 如果数据分布不对称,用中位值和百分位数范围(即四分位数间距)来描述更好。
    • 变异度不应该用标准误和可信区间来表述,因为它们是推断而不是统计描述。
    • 数目和比例用于报告分类变量。
  3. 在分析中,对于结局的统计检验说明了任何的机遇所致的不平衡。然而控制机遇不平衡,例如恰当地计划并实施试验,也许能产生一个更精确的结果。研究者应该陈述任何校正过的分析,并描述他们如何以及为何校正该协变量。

五、结论

  1. 恰当的随机化仍是避免选择和混杂偏倚的唯一方法。
  2. 事与愿违地是,随机对照试验重要的无偏倚性质与其在实施中令人厌烦的问题同时存在。
  3. 随机对照试验阻止了人们的临床倾向,因此如果有机会破译分配方案,许多参与试验的人会试图破坏随机化。
  4. 为了将人们的这种倾向控制到最小,试验者必须非常注重隐藏分配方案。
  5. 恰当的随机化与充分的分配隐藏密不可分。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

随机试验中分配序列的生成:是机遇,不是选择(chance, not choice)

应用了随机分配,当我们终于向发表文章冲刺时,再严格的评论家也不能说很可能由于我们的偏好或者愚蠢导致了组间的差异偏倚。

一、摘要

  1. 随机对照试验提供了临床研究的金标准。但是,随机化也许是试验中最不容易被理解的部分。
  2. 任何不恰当的随机化皆导致选择偏倚和混杂偏倚。研究者应摒弃所有非随机的系统性分配方法。
  3. 受试者的分配入组应为一随机化的过程。
  4. 简单(非限制性)随机化法,类似重复直接抛硬币,是最基本的序列生成过程。此外,不论其他方法如何复杂精妙,在防止偏倚方面均不优于简单随机法。因而研究者应更多地使用这一方法而不是他们现在所用的方法。读者应期待并接受各组样本大小的不一致性。
  5. 一些其他复杂的有限制的随机化程序限制了在干预组间的无法预期的样本量不平衡的可能性。
  6. 最常用的限制性序列产生程序是区组随机化。如果应用这一方法,研究者应该随机改变区组的大小并使用较大的区组大小,特别是在非盲法试验中。
  7. 其他的限制性程序,如“瓮随机化法”,将简单随机和限制性随机法的好处结合起来,当达到某一平衡时最大限度地保护了不可预测性。
  8. 分层随机化的有效性依赖于应用某一种限制性随机化程序以达到分配序列在各层之间的平衡。
  9. 产生一个恰当的随机序列表花费的时间和精力很小,但可获得很大的科学精确性和可靠性。
  10. 研究者应致力于用恰当的资源来生成恰当的随机试验并清楚地报告他们所用的方法。

二、前言

(一)随机对照试验的历史

20年代,R.A Fisher发展了随机化理论并将其作为试验设计的一个基本原则。这一技术主要用在农业研究中。40年代后期,修订后的随机对照试验成功地应用于保健研究。这很大程度上是因为Austin Bradford Hill爵士在伦敦卫生及热带病医学学校的倡议和发展工作。通过努力他成功地发表了第一个应用随机数分配受试者的试验。此后随机化迅速成为保证无偏倚地比较各组的重要标准。

以前,研究者在设计试验时形式上回避对照试验。但是现在,随机对照试验成为方法学上医学研究的最佳标准(Panel 2)。随机对照试验特有的减少偏倚的能力依赖于研究者能够实施减少偏倚主要技巧:随机化。尽管随机分配参加试验的受试者是对照试验最主要的方面,可遗憾的是,这方面仍然是被理解得最少的。

本章我们讲述随机分配背后的合理性及其有关的实施步骤。随机化首先取决于两个内在相关但彼此独立的步骤,即产生一个不可预测的随机分配序列及隐藏此序列直至分配开始,即为分配隐藏(allocation concealment)。本章我们着重于如何产生这样一个序列。在下一章中,我们介绍分配隐藏。

(二)随机化的益处

  1. 在分配治疗方案时消除偏倚

    除非研究者审慎地确保他们的试验中包含了在疾病预后方面无偏倚的对比组,否则不同的健康干预措施之间的比较会引起误导。在预防或治疗方案的对照试验中,随机化通过避免选择偏倚和混杂偏倚产生无偏倚的比较组。

    这样的话,就避免了有意或无意将某个特别的病人纳入某一组而接受某种干预措施。避免偏倚的要点包括从决定选择可以入组试验的患者,到当患者入选后分配入组均要避免偏倚。当受试者入选后,研究者需要立刻将每个受试者按照与试验相符的特征登记,但不知道具体的分组。减少选择和混杂偏倚是随机化最重要的目的。随机化是小或中等效果研究的最好研究设计。

  2. 有利于对研究者、参加者和评估者进行治疗方法的设盲,包括可能使 用安慰剂

    盲法可在随机分配之后减少偏倚,但如果研究者用一个非随机化方案分配治疗方法,该减少偏倚的策略就会是困难的,甚至是不可能的。

  3. 允许用概率论(probability theory)来表示各治疗组之间的结局差异仅仅是由机遇(chance)造成的可能性

三、生成序列要寻找什么?

(一)伪装成随机化的非随机化方法(Non-random methods masquerading as random)

  1. 讽刺的是,许多研究者对随机化的印象是绝对非随机化的。他们经常错把随意法(haphazard approaches)和交替指定法(alternate assignment approaches)认为是随机化。有的医学研究者甚至认为与随机化法相反的方法是“准随机化(quasirandom)”,比如根据干预前的检查结果决定是否进入干预组。然而,准随机化如同“准妊娠”,它们都回避了定义。确实,不恰当的随机化导致了无限缺陷的可能。不恰当地执行随机化,会在试验中导致选择偏倚和混杂偏倚。
  2. 研究者有时候可能是无意识地用随机化的外衣掩饰其非随机化的方法。他们认为已经用所描述的方法进行随机化了,但是此方法显然是非随机的。依据出生日期、病例记录号、报告日期进行分配的方法,或者交替分配方法不是随机化的,更确切地说是系统性的(systematic occurrences)。
  3. 系统性方法在理论和实践方面都不能说成是随机化方法。举例来说,在某一人群中,某一周的某一天一个小孩的出生并不完全是一个机遇事件(a matter of chance)。
  4. 此外,系统性方法并不能做到分配隐藏。根据定义,系统分组通常无法做到充分的隐藏,因为其导致招募试验受试者的人在分配入组前预先知道如何进行治疗分组。如果研究者报告应用系统分组法,尤其假如其被伪装成是随机化的,读者应警惕其结果,因为这个错误意味着忽视了随机化过程。作者如能准确地报告其某一项研究为非随机化,并且解释他们如何控制混杂因素,这样的研究发现能让我们更信任。此时研究者们还应该讨论潜在的选择偏倚和信息偏倚,以便读者能考虑到其非随机研究的性质和偏倚从而判断其研究结果。

四、生成一个分组序列的方法

(一)简单(非限制性的)随机化方法/Simple (unrestricted) randomisation

  1. Panel 3初步但简练地描述了简单随机化。类似于公平地重复拋硬币(coin-tossing),尽管是最基本的分组方法,但它保证了对每个受试者接受的干预分配的不可预知性。不论其有多复杂精妙,没有其他的分组产生法能优于简单随机化法的不可预知性和避免偏倚的效果。

  2. 但是,简单随机化方法的不可预测性也可以是一个不利条件。由于仅凭机遇分组,小样本中的简单随机化,即1:1比例分组(one-to-one allocation ratio)可以形成各组之间完全不相同的样本大小。

    举例来说,总样本大小为20,简单随机化方法生成的约10%的分组序列会是3:7比率的不平衡比例,甚至更高。

  3. 这个难题随着样本大小的增长而减小。概率论确保了从长期来讲,各治疗组的样本大小不会严重的不平衡。对于一个样本量大于200的双臂试验(two-arm trial),其发生显著不平衡的机遇可以忽略。但是,样本量小于200的试验的期中分析(interim analyses)可能导致组间样本量差别甚大。

  4. 拋硬币(coin-tossing)、掷骰子(dice-throwing)以及分发事先洗好的牌是合理的生成简单完全随机序列的方法。所有这些手工抽签的方法理论上带来随机化分组的方案,但是在实践中经常变成非随机化。对随机化概念的曲解破坏了良好的目的。

    例如,通过公平地抛硬币将受试者以相等的可能性随机分配到两个干预组,研究者会受到诱惑而改变某次或一系列抛硬币的结果(如:一连串都是正面而无背面出现时)。

  5. 许多研究者没有真正理解概率论,他们把随机性理解为非随机。举例来说,一对夫妇有了三个男孩想要一个女孩,他们经常认为他们的第四个孩子当然会是一个女孩,但是实际上他们怀上一个女孩的概率还是50%。

  6. 一个同事经常在大学课堂上演示被误解了的随机化。他让班级里一半的学生按照恰当的随机化方法给出分组方案,让另一半学生按照他们个人所理解的随机化方法给出分组方案。使用真正的随机化方法分组的学生经常会长时间的连续执行某一个治疗或者另一种。相反的,按自己判断进行分组的则不会。一个班级又一个班级地显示出他们对随机化的误解。(可参见博文《泊松分布及其应用》)

  7. 此外,手工抽签的方法更难于执行并且无法验证。尽管抛硬币、掷色子、抽扑克牌都是可以接受的方法,但由于它们可能对随机性造成损害,执行困难,且缺乏验证试验,所以我们建议研究者避免使用。

  8. 不过无论使用哪种方法,研究者的报吿中都应该说明清楚。如果不做这样的阐述,读者应警惕这些研究结果。读者会最相信作者描述的用随机数字表(a table of random numbers)或者电脑随机数产生器分配受试者的序列生成方法,因为它们是可以提供验证试验的不可预测的、可靠的、简单的、可重复的方法。

  9. Panel 3: 简单随机化

    以一个随机数字表为基础,几乎有无数的方法可以生成一个简单随机序列。比如,用于两组平均分配的方法,预先决定读表格的方向:上、下、左、右或者对角线。然后选择一个任意的起始点(例如:第一行,第七个数):

    \[56\ 99\ 20\ 20\ 52\ 49\ 05\ 78\ 58\ 50\ 62\ 86\ 52\ 11\ 88\ \]

    \[31\ 60\ 26\ 13\ 69\ 74\ 80\ 71\ 48\ 73\ 72\ 18\ 60\ 58\ 20\ \]

    研究者可以将奇数和偶数分别等同于干预组A和B,用于平均分配。因此一系列的随机数05,78,58,50,62,86,52,11,88,31等代表分配至干预组A,B,B,B,B,B,B,A,B,A等。也可以选择将0049等同于A而5099等同于B,或者0009等同于A而1019等同于B,忽略所有大于19的数字。无数种选择中的任何一种都提供分组的可能性,研究者要严格遵照预先决定的方案执行。

(二)有限制的随机化方法(Restricted randomisation)

有限制的随机化方法控制了出现非期望的样本不平衡的概率。换句话说,如果研究者希望各治疗组的样本大小相等,应该使用限制随机化。

区组法(Blocking)

  1. 最常用的达成平衡随机化(balanced randomisation)的方法是通过随机排列区组法[random permuted blocks (blocking)]。

    例如,一个区组大小为6,依次纳入的每6个受试者为一组,通常3个被分配到一个治疗组,另外3个被分配到另一组。但是,分配比率可以是不平均的。例如,每个按照2:1比例分配的大小为6的区组中,其中4个人被分配到一个治疗组,2个被分配到另一治疗组。这种方法可以很容易扩展到两个以上的治疗方案。

    双盲(double blind)是指:研究对象和研究者都不了解试验分组情况,而是由研究设计者来安排和控制全部试验。

  2. 有了区组法,区组的大小可以在试验的全程中固定或者随机的变化。当然,如果应用区组法的随机化研究不是双盲的,区组的大小应该随机变化以减少负责招募受试者的人员看到分配表的可能。如果区组的样本大小是固定的,特别样本量小时(≤6个受试者),则区组样本的大小在非双盲研究中能被破译。当分配后的治疗分组能被获知后,从前一次分配可以辨识出一个序列。然后随后的分配就能被精确的预计到,无论分配隐藏的效果如何都引入了选择偏倚。较大的区组(如10或20)比较小的区组(如4或6)有助于保持不可预知性,随机改变区组大小亦然。

  3. 进行随机对照试验的研究者经常使用区组法。研究者简单地报告说他们进行区组化了,这会使得读者怀疑。研究者们应该明确地报告如何区组化,分组比例(通常是1:1),选择的随机方法(如,随机数表或者电脑随机数产生器),以及区组样本的大小(如果随机改变区组大小的话)。

    较小的区组可能会出现以下情况(两组,区组长度为4):

    B A B ? →肯定是A。

    A A ? ? →肯定是B B。

    这样会带来选择偏倚。如何避免这种情况呢?

    可以设计为随机长度的区组,如区组长度依次为4、6、6、8、6、4、8、8、4……

  4. 随机排列区组法如何实施:以区组长度4为例

    • 一个区组内的4个研究对象可以有6种排列方式:
      • AABB
      • ABAB
      • ABBA
      • BAAB
      • BABA
      • BBAA
    • 确定好所有的排列形式后,接下来需要将6个区组随机排列。我们可以用各种方式(如SPSS、Excel、SAS等)产生一串随机数字,比如:925912648239817213……
    • 因为只有6种排列方式,因此可以只选择1-6之间的数字,251264231213……
    • 按照上述随机数字排列区组。至此,区组随机化就完成了,两组人数完全相等。

随机分配规则(Random allocation rule)

  1. 随机分配规则是限制的最简单形式。对某一特定的整体样本大小,它仅确保在研究结束时样本大小相等。通常,研究者定义一个整体样本大小然后随机选择样本中的一个子集分配到A组,剩下的分配到B组。例如,总样本量大小为200,在一个帽子里放100只A组的球和100只B组的球,将它们随机拿出来并且不再放回帽子里,这就是随机分配规则的符号化。
  2. 生成序列时会随机指定100个A组和B组的分配顺序,这个方法将整个研究总体当作一个大的区组,即此平衡通常只在试验结束时达成,而非贯彻整个试验过程。
  3. 随机分配规则保持了简单完全随机的许多优点,尤其对统计分析而言;但是有更大的出现变量不平衡,即机遇性混杂(chance confounding)的概率。值得牢记的是这种不平衡在样本量更大时变得微不足道。此外,随机分配规则相较于简单完全随机化,不可预测性有所影响。特别是在一个非双盲试验中,通过猜测分配(序列)可导入选择偏倚(尤其在接近试验结束时)。但是这显然不会存在于区组较小的排列区组随机化方法中。
  4. 研究者有时通过限制性洗牌法(restricted shuffled approach)执行随机分配规则,包括确认样本大小、按分配比率为每一治疗方案准备特殊的卡片及指定一个数字,将卡片放在信封里,打乱它们产生一个无替换的随机分组。许多研究者可能使用这一手段但很少称之为限制性洗牌法或者随机分配规则。取而代之的,他们报告说应用信封或洗牌法(use of envelopes or shuffling)。的确,严格洗牌(打乱)手段将分配序列生成和分配隐藏整合在一个过程里。洗牌法决定分配序列,这不是最主要的。最重要的是,使用信封进行充分的分配隐藏保证了能充分应用有限制的洗牌法。

偏性掷币法、瓮随机化法、替换随机化法和最小化法,又被称为动态随机分组

偏性掷币法和瓮随机化法(Biased coin and urn randomisation)

  1. 偏性掷币设计(Biased-coin design)可以达到与区组法相同的目的而无需强制严格平均。因而它几乎完全保留了简单随机法的不可预测性。偏性掷币设计在试验过程中改变分配概率以纠正可能发生的不平衡性(Panel 4)。研究最广泛的是将适应性偏性掷币设计(Adaptive bias-coin designs)和瓮随机化设计结合起来的方法,即基于不平衡性的程度改变分组的概率。
  2. 偏性掷币设计,包括瓮随机设计(urn design),在报告中不常见,但它们可能使用得更频繁。利用电脑比真的从瓮中拿球更简单、更可行,正如使用电脑比掷币进行简单随机法更简单和更可靠一样。非盲法试验中的不可预测性是最重要的,并且因需要样本大小平衡而排除了使用简单随机法,瓮随机化设计就变得尤其重要。无论排列区组法使用固定或随机改变区组样本大小的方式,瓮随机设计的不不可预测性均胜过排列区组法。如果读者遇到一个偏性掷币法或瓮随机设计,则应认为其具有恰当的序列生成过程。
  3. 偏性掷币法和瓮随机化法
    • 偏性掷币设计在试验过程中通过改变分配概率从而在各组人数间纠正可能发生的不平衡性。例如:研究者们可能使用均等分组的概率来进行简单随机化(两组试验,0.50:0.50),直至分配到各组的数字差异性始终低于预设的限定值。如果差异性恰达到限定值,则研究者要提高人数较少那组的分配概率(如0.6:0.4)。恰当地执行偏性掷币设计能达到平衡同时保留与简单随机法有关的最大的不可预测性。
    • 动态偏性掷币设计,结合被研究得最为广泛的瓮随机化,是基于不平衡性的程度而改变分组概率的方法。瓮随机化设计按UD(α,β)设计,最初的蓝色球和绿色球的数量都是α,β代表放到瓮里的与选到的球颜色相反的球的数目(α和β是任何合理的非负数)。例如UD(2,1),一个瓮里有两个蓝球和两个绿球:以0.50/0.50的概率开始分组(α=2)。随机地拿一个球并以它代替治疗方案分组:蓝色代表A治疗,绿色代表B治疗。每次额外放一个(β=1)和所选球颜色相反的球入瓮。如果先选到一个蓝球,则首次分组后瓮里有两个蓝球和三个绿球:按0.40/0.60进行下次分组。如果第二次再选到一个蓝球,则第二次分组后罐子里有两个蓝球和四个绿球:0.33/0.67的概率进行下次分组。每次分组重复这种拿球程序。分配概率受之前的分组情况影响而波动。

替换随机化法(Replacement randomisation)

  1. 重复简单随机分配方案直到达成某一预期的平衡。试验研究者应建立一个用于替换的客观评价系统。例如,一个300人参与的试验,研究者应注明假如各组间大小的差异超过20,则他们应替换一个简单随机化方案。如果第一次生成的方案的差异大于20,那么他们应生成一个全新的简单随机化方案以替换第一次的尝试并按照他们关于差异度(disparity)的客观标准检查之。他们将如此重复直至有一个符合他们的标准的简单随机化方案。尽管替换随机化方法看上去有些武断,只要是在实验开始前执行这个方法,那么它就是充分的。
  2. 此外,它易于实施,能确保合理化的平衡,并包括了不可预测性。
  3. 其主要的缺陷是不能确保期中分析所需要的试验全程的平衡性。尽管使用得少,这个方法是最早产生的有限制的随机化方法的形式。

最小化法(Minimisation)

  1. 比如某研究者要做A、B两种术式的近期疗效研究,采用RCT设计,在研究开展前该研究者就认识到:研究对象的年龄、疾病分期和病理类型是影响疗效好坏的重要因素。所以在研究分组中,研究者想达到在随机分组之后,A、B两个术式组在年龄、疾病分期和病理类型上基本保持一致。这样再去探索A、B两组的疗效,就会比较好解释。

  2. 基于这个“均衡多个影响因素”的目的,最小化随机就比较合适。它的实现过程是:

    • 确定需要平衡的影响因素、各自的权重和目标组分配概率;
    • 第一个研究对象完全随机分组;
    • 从第二个研究对象开始,计算该研究对象被分组特定组后,两组间的预后因素差异大小;
    • 按照差异最小化的原则,将该研究对象按照分配概率进行随机分组。
    • 这个计算过程从第二例研究对象入组开始,就被一直计算着,每入组一个研究对象就需要计算一次,听起来比较麻烦,下面举例说明(由于差异大小有不同计算方法,下面采用极差法举例)。
  3. 假设年龄、疾病分期和病理类型的权重分别是1、2、3,目前入组的16个病人分组如下图:

    组别 Age<50 Age≥50 疾病分期1期 疾病分期2期 病理a型 病理b型
    A组 3 5 3 5 4 4
    B组 4 4 3 5 3 5
    • 第17个患者是≥50岁,1期b型,计算两组差异大小:
    • 假设入A组,差异为\((6-4) \times 1 +(4-3)\times 2+(5-5)\times 3=4\)
    • 假设入B组,差异为\((5-5) \times 1 +(4-3)\times 2+(6-4)\times 3=8\)
    • 这时候根据差异最小化原则,我们优先将第17个研究对象分入A组。
  4. 最小化法有明显的优势:能够很好地平衡影响因素在两组的构成情况。但是它也存在缺点,就是随机分组过程复杂,另外研究结果的数据统计分析是否可以采用常规的统计方法尚有些争议。

  5. 最小化随机分组过程的复杂,目前已基本不是问题,随着智能手机软件的广泛应用,这些简单的计算都很容易实现。

  6. 看了上面的例子,也许你会觉得最小化随机没有必要,完全可以通过分层区组随机来实现。但是如果样本量较小且分层因素较多,分层区组随机开展起来就比较困难。有研究显示,在将100人随机分到2组时,最小化随机可以同时保障20多个影响因素的均能性,而此时分层随机就不容易进行。所以最小化随机一般用于需要均衡多个影响因素,且样本量不大的随机分组过程。

  7. 最小化法(Minimisation)体现了分层和限制随机化的基本观念。它可以使得不大的几个组之间在几个特征上非常接近。最小化按其最严格的本意来说可被看做非随机法,但是在应用中,我们倾向于取其随机化的特征部分。最小化有支持者有反对者。在任何情况下,使用最小化法的研究者都应防止试验执行者获知随后的分配信息及任何有助于猜测随后分组情况的信息。

(三)分层随机化方法(Stratified randomisation)

  1. 随机化可以在治疗组间的基线特征上产生机遇不平衡性(chance imbalances)。研究者有时对重要的预后因素进行预随机化分层以避免不平衡性,如年龄或疾病的严重程度。在这种情况下,研究者应注明限制性的方法(通常是区组法)。为了获得分层的益处,研究者必须使用一种有限制的随机化方案以按潜在的重要预后因素对参加试验的受试者分层,在各层水平产生独立的随机化分组方案。没有限制的分层什么也不能达成(即安慰剂分层)。
  2. 试验中的分层在方法学上是有效并有用的,但是理论和实用的问题限制了它在计划的新试验中的使用。在大型试验中,随机化总是能产生平衡的分组,而分层除了增加复杂性之外,并不能带来什么好处。此外,如果不平衡性增加,研究者可以用统计学的方法在预后变量上校正(最好预先计划好)。最值得考虑的是分层增加的复杂性可能降低了试验合作者的参与性,或者在繁忙的诊所内招募受试者的合作性,任何一条都影响招募。因此,在大型试验中进行分层带来的益处少,且同时实践上有缺点。
  3. 但是注意一个重要的例外,在多中心研究中按中心分层既确保了有益之处,又不会增加各中心操作的复杂性。而在有的大型多中心试验中,试验者通过中心随机化来落实分配序列,这也可能是一种例外。中心随机化(central randomisation)减少了实践中分层的不利因素,且各中心可通过小样本量获得收益。
  4. 分层在小型试验中可能有用,因为它能避免有关预后因素的严重不平衡。它能提供足够的平衡性(有关分层因素的)和可能提高一点统计学把握度和精确性。但是一旦每组受试者超过50人,分层所获得的好处就减少了。此外,如果研究者在各亚层之间寻找精确的平衡性,分层可能直接导致负面效果。为了获得准确的平衡,研究者通常使用小的、固定的区组样本大小,其结果是损害了不可预测性。

五、将序列生成和序列实施分开

  1. 研究者经常忽略(通常不是故意的)随机对照研究设计和报告的另一个重要成分。在所有方法中,制定生成分配方案(顺序)的人不应该参与确定受试者是否适合入选,也不参与实施治疗方案或者分析结果。否则的话,他通常有权限获得分配序列表并因此有机会导致偏倚。
  2. 试验中这个部分的错误可以形成一个导致偏倚乘虚而入的缝隙。CONSORT指南(CONSORT statement)的第10条(实施)提到了有关的内容。
  3. 因此,研究者应在报告中陈述谁生成了分配序列,谁入选受试者及谁分配入选的受试者。
  4. 生成分配序列方案的人应与入选及分配受试者的人不同。然而,在某些情况下,研究者可能不得不既要制定生成分配序列,又要入选或分配受试者。在这种情况下,研究者需保证分配序列方案的不可预测性,并将之锁起来,防止他人尤其是自己拿到。

六、小结

  1. 随机对照试验建立了医学研究中最好的理论标准。其关键词是随机化,并需要恰当实施。
  2. 随机序列的生成花费的时间和精力很少,但是之后可获得极大的科学的精确性和可信性。
  3. 研究者应该投入合适的资源以生成恰当的序列并清晰地报告他们的方法。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

随机试验中的不均等样本量分组:避免猜测

一、摘要

  1. 普遍的概念认为随机试验需要产生样本量大小相等的各个比较组,对此我们深感不安。
  2. 不幸的是,这种概念上的误解导致研究者强行达成样本量相等而产生偏倚,尤其如果应用的是不科学的方式。
  3. 简单的非限制性随机试验(类似于重复抛硬币),各组的样本量应该显示出随机变异性。换句话说,不同比较组的数量有差异是可以预计到的。在简单随机对照试验中,各组的相同样本量是被修饰过的,并不科学,因此,其他的有限制性的随机方案通过非简单随机而强制平衡各组样本量。
  4. 强制相等的各组样本量对分配的不可预测性有潜在的损害,特别是在非双盲试验中应用的排列区组随机化法。不可预测性的削弱可以使试验产生偏倚。
  5. 整体来说,研究者较少使用简单随机法,而过度使用了固定区组随机法。
  6. 对于大于200名受试者的非双盲试验,研究者应该使用简单随机法,并接受样本量的适当差异。这种不可预测性反映了随机法的本质。我们认同产生的轻度不平衡的分组样本量,并鼓励采纳这种不平衡性。
  7. 对于总体样本量小于200的非随机双盲对照试验,或者在非随机双盲对照试验的主要分层及亚组中,瓮随机化法比区组法更能增强不可预测性。
  8. 我们的混合随机方法是一个更简单的选择,它可以在现今理解的简单随机法和排列区组随机化法的背景之下获得不可预测性。简单随机法提供不可预测性,而排列区组法在提供平衡的同时避免了绝对平衡会导致的选择偏倚。

二、前言

  1. 在随机对照试验中,尤其是使用排列区组随机法(permuted-block randomisation)的非双盲试验(non-double- blinded trials)中,绝对均等的样本量对提高统计学的把握度(power)没有什么帮助,而且潜在地威胁了不可预测性。
  2. 参与随机试验的人无法预见之后的治疗分组,因而不可预测性(unpredictability)反映了随机法的要旨(essence)。而预测性则带来偏倚。
  3. 除了简单非限制性随机法之外的其他随机法产生更多的可预测性。这些不同的方法被称为有限制的随机化方法。假定最常期望的分配比例是1:1的话,有限制的随机化方法通过限制治疗分配而产生贯穿整个试验的相似的、或者常常基本上相等的各组样本量。有限制的随机化方法都牺牲了不可预测性,但是预测性最为明显的是在非双盲试验中应用排列区组法(permuted- blocks)(panel 1)。
  4. 试验者依赖于不可预测性带来的安全性。过去,我们建议培养对简单随机试验中不均等的样本量大小的接受能力。现在,我们建议也要培养对有限制的随机试验中不均等的各组样本量的接受能力。
  5. Panel 1:分配序列中的不可预测性
    • 可预测性(predictability)在临床试验中产生偏倚。如果试验研究者弄清或预测到随后的分配分组,他们就会引入选择偏倚。在评估是否合格时,他们可以排除在他们看来指派到错误分组的受试者。甚至,若干技巧使得他们可以引导预后好的受试者分配到治疗组,而预后差的受试者到对照组,反之亦然。无论这样做的原因是什么,试验者让对比产生了偏倚。临床医生可能在诊疗患者的时候注重可预测性,但是他们必须明白这种可预测性在临床试验中会大量地引起偏倚。
    • 试验研究者破坏了分配隐藏机制后能猜到下一个分组(例如:把半透明的信封放到亮着的灯泡下)。但是,恰当的分配隐藏通常会防止这种破坏。另一种情况是试验研究者用排列区组法有时候可以通过之前的分组特征猜出下一个分组。比如,在一个区组大小为4的非双盲试验中,如果试验研究者注意到每4个受试者入组后两组的样本大小是相等的,那么就能预测许多之后的分组。举例来说,如果区组大小为4,出现ABA这样的序列,那么B必然是下一个入组的,或者出现BB,AA就是后两个入组的。
    • 在非双盲试验中,哪怕有恰当的分配隐藏,所有的干预分配在分组之后也成为可知的。因此,如果出现一种分配序列的模式,试验研究者就能辨识出来并预测一些之后的分组。但是,如果不出现分配模式,或者模式是不可辨识的,则分配序列是不可预测的。因此已知从前的分组不能帮助预测之后的分组情况。不可预测性是非双盲随机试验的要旨。
    • 在分组前进行恰当的分配隐藏,分组后对所有参与试验的人恰当设盲使得之前的分组不可知,从而防止预测之后的分组。恰当的设盲减小了对不可预测性的需求。但是,即使在本应是盲法的试验中,分组后的设盲并非总是成功的。例如,如果试验研究者发觉病情进展很快,从临床角度来说显然是副作用所致,这样就暴露了所指定的干预措施,因而盲法也不可能防止预测。

三、强行修饰的可信度/Forcing cosmetic credibility

  1. 随机化研究的报告中出现各比较组的样本量大小均等的情况比预期的更多。在简单非限制性随机对照试验中(类似于重复拋硬币),各比较组样本量的相对大小应该体现随机变异性(random variation)。
  2. 换句话说,相比较的分组样本量的不同是可以预见的。然而,对普通医学和专科医学杂志所报道的试验分析显示,研究者过于频繁地报告比较组之间的样本量大小均等(定义为绝对均等,或在总样本量大小为奇数时近似相等)。在专科杂志中,报告各比较组的组间样本量存在差异的数量与预期的相距甚远(p<0·001),并且在简单随机(非限制性)试验中54%的样本量都是相等的。这个结果高于区组法试验(36%),而区组法试验中是追求均等的。此外,关于皮肤病学文献的相似分析的结果显示,71%或者更多的简单随机试验报告了绝对相等的各组样本大小。
  3. 为什么研究者寻求相等或相似的分组样本量?我们感觉到许多研究者把得到相等的样本量作为终极任务。相等样本量有着被称为“修饰的可信度(cosmetic credibility)”的诱惑,这种诱惑是如此明显。可悲的是,读者们也被修饰的可信度吸引了。但是,努力用简单随机法来达成均等的样本量大小在方法学上是不合逻辑的。
  4. 前文提到的占了很大比例的均等分组样本量标志着这个偏差不是由机遇产生的,并提示非随机化法操纵着分组以达成强行均等。其他合乎逻辑的解释看来不错,但可能不能说明我们所看到的偏差。对分组的这种胡乱修补由于将选择偏倚引入试验中而造成难题。我们希望消除获得绝对均等样本量的动机背后的神话,从而解决这些难题。
  5. 不过,除了非随机化法操纵分组的问题外,我们将会关注用有效的限制性随机方法在达到各组样本量大小平衡时带来的潜在偏倚,首先是排列区组随机法(permuted-block randomisation),它在整个试验过程中产生均等的样本大小。遗憾的是,用来确保均等的样本量的方法有利于正确预测未来的治疗分组,使得偏倚渗透进来。

四、有限制的试验中的不均等样本量分组

  1. 限制性随机化方法是用来平衡样本大小的。这种平衡通常能增强统计把握度,并在试验期间可能进行治疗效果或结局的测量(measurement)的时间点上表现出来。此外,层内的有限制的随机化法对要从分层中获益的研究者而言变得至关重要。因此,科学合理的理由可为限制提供支持。
  2. 但是有效的限制并不需要产生完全相等的样本大小。一个试验的把握度对组间样本量上的轻微差异并不敏感。因此,产生相似的样本大小的限制性方法和产生相等的样本大小的限制性随机化方法所带来的把握度(power)、时间趋势(time trend)和分层益处(stratification benefits)是几乎一样的。
  3. 但是相等的样本大小可能带来不良后果。主要的限制性随机化法是随机排列区组法(blocking)(区组化)。总体来说,这种方法能很有效地达到在各个比较组之间(以及如果分层的话,在各层之间)获得相等的样本大小的目的。此外,每个区组分好后,也产生相同的样本大小。但也由于这样的作用,它带来了可预测性的不足之处。
  4. 尤其在非双盲试验(non-double-blinded trial)中,可预测性是最大的弱点。我们将双盲试验定义为受试者、研究者和结果评估者对其中的治疗方案都不知情。事实上,所有非双盲试验中,有的研究者会知道治疗方案。因此,即使有充分的分配隐藏,在分组之后治疗方案还是变成可知的。有此信息,试验研究者可以解码固定的区组大小(假定组织者最初是不对他们公开所有的区组大小信息的),然后预计何时会出现各组样本量相等(Panel 1)。通过之前的分组特征可以猜出分组序列,之后的分组也可以被准确预知。因此,无论分配隐藏的效果怎样,都导致选择偏倚。在一个双盲试验中,如果明显可觉察到的治疗副作用迅速出现的话,同样的难题也可出现,虽然程度较轻。
  5. 如果整个随机对照试验中区组大小保持固定,则区组的大小,尤其是小区组(比如小于等于6个受试者),容易被破解。因此,如果研究者使用区组随机法,应该变动区组大小以减少分配表被那些负责入组和分组的人获知的机会。
  6. 但是区组大小的随机化不是万能药。即使随机变动区组的大小,区组化在整个试验的过程中还是会多次出现各组样本量相等的情况。区组大小随机化能帮助减少选择偏倚,但是某些情况下可能不会消除它。即使使用随机的区组大小,排列区组随机法表明试验招募者仍有机会预计到某些分组。

五、非双盲试验中的不同选择

(一)简单随机法(simple randomisation)

  1. 对于总样本量大于200人的非双盲随机对照试验(两组的平均样本量是100),以及在每个计划的亚组内或者层内,我们推荐简单随机法(simple randomisation)。它提供完美的不可预测性,从而通过分配序列的生成消除选择偏倚。此外,简单随机化在各种序列生成过程中出现机遇偏倚的可能性最小,而且它还使得几乎所有标准统计软件都能可靠地应用。
  2. 样本量大小超过200,简单随机化通常仅产生轻度不一致的组间样本量。然而,200的截点仅仅是一个整体的指导。各个研究者可能想判断各自特定的可接受的不一致程度。
  3. 小于200的样本量的期中分析(即:在研究者完成全部样本量之前)也 需要注意。这种情况下,各治疗组间样本量的不一致性会相对较大,不过我们认为简单随机化的不可预测性更多地补偿了这种损失。

(二)有限制的随机化方法

  1. 对于样本量小于200的非双盲随机对照试验,或一个分层试验中的任一主要分层或者亚组中,我们推荐使用有限制的随机化法。尤其是瓮随机化法设计能很好地促进而非强制达成平衡。
  2. 它倾向于在一个试验重要的早期阶段多做平衡,之后当试验样本大小增加时进行简单随机化。这一作用在整体试验样本大小不确定的时候,或者更可能在分层试验中分层大小不确定的时候,都是有用的。在持续检测治疗效果且随时可能终止的试验中,它也证明是有用的。瓮随机化法的设计通常有充分的平衡性,同时比排列区组法更不易出现选择偏倚。
  3. 这些理想的特性也带来了警告。有的统计学家推荐在瓮随机化的设计中使用置换检验(permutation tests)。置换检验是治疗效果相同性的无前提假设的统计检验。遗憾的是,标准统计软件中通常不对瓮随机设计提供这种检验。这增加了研究者和统计学家进行分析的复杂性。然而,如果结局变量不出现主要的时间趋势,瓮随机试验用常用的统计软件进行标准统计分析通常产生与置换检验相似的结果。此外,用标准统计分析,研究者可以很容易获得常见的效果测量的可信区间。
  4. 令人惊讶的是,报告中不常出现瓷随机设计或其他形式的偏性掷币(biased coin)的设计形式。另一个可能阻碍瓮随机化法广泛应用的原因是其概念上的复杂性。它比简单随机化或排列区组随机化要难以理解。无论什么原因,瓮随机设计都在黯然消逝。

六、混合随机(mixed randomisation)

(一)混合随机的设计

  1. 我们现已尝试在已有的临床流行病学知识基础上建立一种方法。我们想要一种能总体上达到瓮随机化的不可预测性,且其不可预测性在小样本试验中更甚之,同时又没有其显而易见的复杂性的有限制的随机化方法。

  2. 我们的解决方法混合了简单随机化法和排列区组随机化法。

    • 简单随机化提供不可预测性。
    • 排列区组随机化则提供平衡。
    • 混合方法由替换随机化程序(replacement randomisation procedure)生成一个不均等的区组开始(panels 2 and 3)。
    • 随后就是最简单的方式,区组大小变动的标准排列区组。
    • 这种排列随机化顺序在一开始就建立不均等性,使得剩下的试验中任何对分组的预测都不可能。
  3. 替换随机化方法基本上是简单随机化,但有一些轻微的改动。因为研究者应该力求一个不均等区组,他们会事先对各个分组之间的样本量大小设定一个不等度。然后用简单随机法准备分配序列,检查样本大小间的不一致性与他们预设的不等度之间的差异。若样本间的不一致性等于或者超过他们预设的不一致性,则本次简单随机化分配顺序可用于第一次不均等区组大小的要求。如果不能的话,则生成一个全新的简单随机序列替换前一个。他们会重复此过程直到生成一个简单随机序列等于或超过他们预设的不一致性(panel 2)。第一个不均等区组的区组大小整体可以是奇数或偶数,且几乎可以占总样本的任意比例,不过我们设想它通常落在5~16之间。

  4. 我们的基本方法是在试验中形成初始的不平衡。替换随机化只是代表一种达成它的方法。也可以从随机不平衡排列区组法(random imbalanced permuted blocks)或其他由这个主旨变化而来的方式中选择。

  5. 如果研究者能接受不一致性的变化,有另一个又好又简单的方法,即将第一个区组的大小设定为一个奇数,这至少确保了一定的不一致性,又可以只需使用简单随机法(没有替换随机化)。

  6. 关于第一个区组的可接受的预设不等度的确立是很不敏感的。即使治疗组的总样本量按2:1比例分配时,试验的把握度也不会明显下降。研究者仅需要产生比这小得多的不等度,尤其在分层试验的样本量小的各层中。确保在差异度小的时候能和差异度大的时候产生一样的不可预测性。此外,实际上不一致性能通过增加不可预测性轻度地增加试验的把握度。

    比如:在比例检验(tests for proportions)或者生命表检验(tests for life-tables)中,最大把握度是通过不等的治疗组样本大小获得的。

  7. 在第一个不等区组之后,研究者应该进行常规排列区组随机法(panels 2 and 3)。我们建议随机改变区组的大小,且尽可能增加实际可行的区组的长度以得到较大的不可预测性。为了增加不可预测性,研究者可以在试验期间不时用替换随机化方法生成几个额外的不等区组。如:

    • 在超过下50个受试者之后的一个排列区组后插入另一个不均等区组(用整个区组则意味着下一个不等区组很可能从50之后开始)。
    • 另一个选择是,对这些插入的区组,研究者可以仅用简单随机化方法。这会稍微简单点,很可能会提供额外的不可预测性,也提供更多潜在的分配序列。其他的选择也可以产生这样的插入区组(如不平衡排列区组),但这已超出了本章范围。
  8. 对分析来说,我们建议用可供使用的统计软件做标准统计分析(即更简单的方法)。

    • 基于设计的置换检验可以稍微提高一些假设检验的信度(credibility)。
    • 但我们更喜欢标准统计分析所产生的可信区间。
    • 我们也同意在分析中对区组的忽略是可以接受的。
    • 如果结局有时间趋势,在区组试验中这种简单直接的方法则通常产生比较保守的结果,否则,其结果与合并忽略区组的分析法相似。
  9. 比起缺乏不可预测性而增加的潜在的选择偏倚效应来说,上述的问题是微不足道的。一旦试验中渗入偏倚,它会变得根深蒂固且通常不易被察觉。除非在有限的情况下,研究者可能用一种创新的检测方法。

  10. 当前,在排列区组随机化试验中关于标准统计分析与置换检验,或非区组分析与区组分析之间的比较,总是关注于表面上的P值或把握度的小小增加。但无论选了何种分析方法,许多情况下对试验的阐述是相同的。更重要的是不同于选择偏倚,研究者对分析方法有直接补救的方法。如果杂志编辑或者统计学审稿者坚持要用另一种不同的方法,通常研究者可以重新做一遍区组分析或置换检验。总之,研究者应尽力关注于在设计和执行试验中防止偏倚,采用一种不可预测的分配序列就是努力的一部分。

(二)混合随机法的步骤(Panel 2)

  1. 第一步:用替换随机化方法在第一批受试者中生成一个不均等的区组
    • A.确定第一个不均等区组的区组大小。这个区组的大小可以是奇数或者偶数,或者任何合理的数目,不过通常在5~16的范围内。
    • B.给第一个不均等区组的分组样本量指定一个预定不等度(inequality)。
    • C.生成一个简单随机序列(例如:一个随机数字表或一个电脑随机数生成器)。
    • D.检查由之生成的序列是否符合或者超出上述步骤B所希望得到的预定不等度。
    • E.如果所有的治疗组A和所有治疗组B之间有足够的不等分布,进行第二步,否则,回到上述步骤C.(不断重复)。
  2. 第二步:为随后的受试者生成随机排列区组
    • A.选择排列区组的大小。较长的区组(比如10到20)比较短的区组(比如2到4)更不可预测。大家应该更倾向于长区组,除非研究者需要在一个小型试验或者试验中的一个小的分层中有合适的平衡。例如,研究者可以选择8、10、12和14作为区组大小。
    • B.生成随机排列区组,随机改变区组大小,如许多文章中所描述的。
    • C.决定是否在试验中增加额外的不等区组或简单随机区组。如果不增加,用随机排列区组完成要求的样本量。或者指定一个插入点加入不等区组或简单随机序列。
    • D.如果通过替换随机化插入另一个不等区组,重新执行第一步。如果插入一个简单随机序列,进行第三步。
  3. 第三步:生成一个在一组排列区组后插入的简单随机序列
    • A.确定简单随机序列的大小。此样本大小可以是奇数或者偶数,或任何合理的样本大小,但是通常在5~16之间。我们建议用奇数以确保不平衡。
    • B.选择按照之前建议的样本大小生成一个简单随机序列。
      1. 继续进行第二步的步骤B。

(三)混合随机法举例

  1. 通过把握度计算,随机法方案要求整体样本量为100。研究者决定第一个不均等区组大小为10,预设差异度为第一个不等区组中的治疗方案A和B之间的受试者差异至少为4。

  2. 然后研究者执行替换随机化,选择简单随机序列大小为10,直至成功地生成了一个10个受试者的分组,其中治疗方案是A或B,—种方案比另一种方案的受试者至少多4个人。此序列为BABBBABBAB,实际上,3个A治疗方案,7个B治疗方案。

  3. 然后研究者决定随机将排列区组大小改为6或8或10或12之间的任意一个。此程序在接下来的研究中可以简单地继续下去,但是研究者决定在第40个受试者完成排列区组分配后插入一个大小为5的简单随机分组序列。随机选择的区组大小依次为12、8和10。简单随机序列从第41个受试者开始,为BABAA。

  4. 在此简单随机序列之后,研究者再次进行随机排列区组法,区组大小为6、8、10或12,第一个随机选择的区组大小为8。我们描述分配序列及前53个分组按治疗分配的累计分组情况。

七、要在研究方案中全部公布吗?

  1. 在研究方案中清晰地提供随机化方案的细节可能更方便破译分组顺序。我们推荐研究者不要在研究方案和研究者手册中完整描述他们生成方案的过程。他们可能不得不描述分层计划,但对执行试验的人要隐藏生成分配序列方法的所有细节。
  2. 有些基金负责人要求提交更多的文件以确保研究者了解合适的随机化方法。适当的原理和参考文献可能就足够了。如果基金机构要求更多说明,研究者应向基金会提供一份单独列出的生成分组序列的计划,而且不要和决定受试者入组的研究者共享。不过,在试验的最终报告里,研究者应该完整地记录随机化过程。

八、结论

  1. 研究者简单随机法使用得太少,而固定区组随机法使用得太多。这样做是因为他们没有充分理解不可预测性的重要性,并且过高地估计了治疗组样本大小相等的价值。

  2. 简单随机法是完全不可预测的,操作简单,且能用标准统计分析软件。对大于200个受试者的非双盲试验而言,研究者应更多地使用简单随机法,同时就算不赞美也要容许组间样本大小的不一致性。这个不可预测性反映了随机化的本质。

  3. 对于非双盲随机对照试验,如果总体样本小于200或在重要分层或亚组中,瓮随机设计相对于区组随机化增加了不可预测。

  4. 然而,我们的混合随机方法在目前可理解的简单随机法和排列区组随机化的联合应用中获得不可预测性。我们极力主张研究者至少在非双肓试验中应用这一方法。

  5. 为什么给试验的实施增加复杂性?答案是保护随机化的完整性的重要性高于一切。恰当的随机法使得偏倚最小化,甚于试验中任何其他方法学的特点:

    "一旦随机化泄露,试验保证无偏倚的能力就彻底进了水沟。"

    那些参加试验的人会费力破译随机化方案。因此,研究者设计试验时必须同样努力地挫败他们的企图。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

随机试验的样本量波动:剔除、失访及不确定者

一、摘要

  1. 如果研究者不能在主要分析中包括所有被随机化分组的受试者,那么随机化就失去了意义。
  2. 受试者可能不愿参加随访,离开了居住地,或者应服用阿司匹林却服用了阿司帕坦。
  3. 在随机化之前剔除不合适的受试者不会使治疗的比较产生偏倚,但是会影响试验结果的外推性。
  4. 一个试验在随机化前的入选标准应该是清晰的、特异的、可执行的。
  5. 读者需要评估入选标准中是否存在一些条款,会使试验样本人群呈非典型性或不能代表所感兴趣的人群。
  6. 原则上,对随机化之后剔除的评估非常简单:即任何发生在随机化之后的剔除均是不允许的。
  7. 在主要分析时,需包括所有受试者,并且按原分组进行分析(意向性分析)。但实际中,常常会有失访,因此,研究者必须采取充分的措施尽可能地留住受试者。
  8. 此外,研究者还可利用试验档案等形式提供试验过程中被随机化分组的受试者的清晰信息。
  9. 在次要分析中,研究者还可以进行按方案或按治疗的受试者分析。这些分析应该被描述为次要分析,并注明是非随机化的比较。
  10. 对剔除的不恰当处理会导致严重的方法学问题。然而,有些对不恰当剔除的解释吸引了读者,掩盖了其问题的严重性。对剔除的不恰当处理会减弱研究的真实性。

二、前言

如果研究者不能在主要分析中包括所有被随机化分组的受试者,那么随机化就失去了意义。因此,评价一个随机对照临床试验的关键原则是评价其剔除(exclusions)、退出(withdrawals)、失访(losses),以及偏离研究方案(protocol deviations)的情况。

那么研究者应该如何处理拒绝入组、忽视随访、离开居住地,或应服用阿司匹林却服用阿司帕坦(aspartame)的这些研究对象呢?

许多处理以上问题的方法貌似具有逻辑性和吸引力,但事实上都是不合适的,因为这些方法会引入偏倚。以下,我们将分析随机化前后剔除受试者带来的不同影响。

三、随机化之前剔除研究对象

(一)影响与建议

  1. 研究者可以在随机化开始前剔除研究对象(exclusions before randomisation)。无论研究者剔除研究对象的理由是充足(well-founded)的还是异想天开的,这对最终随机化后的治疗方法间的比较不产生影响(具有很好的内部真实性/internal validity)。但这一阶段剔除研究对象会影响研究结果的外推性(extrapolation)(即外部真实性/external validity)。
  2. 对于大多数研究者,我们建议在设计大型、单中心研究时尽量制定最低入选标准。
    • 在某些情况下,剔除一些研究对象是合理的。例如,研究对象具有干预措施的禁忌证,或者他们很有可能成为失访者。
    • 研究问题决定了研究方法。有时候,研究者制定了过多的入选标准以至试验结果外推的人群极小,没人感兴趣。此外,也会使入选研究对象变得十分困难。
    • 如果研究者剔除了过多的研究对象,或是错误地剔除了研究对象,尽管此项随机对照临床试验进行得非常严谨,但是,他们的研究结果将失去对研究人群的代表性(即试验结果是正确的但是却没有应用的意义)。

(二)在随机化之前剔除研究对象应注意的问题

恰当的入选标准应该指明研究者希望外推研究结果的人群。

  • 在判断一个试验的研究结果前,读者应首先确定入选标准是否清晰、特异。
  • 在随机化过程之前应用入选标准是关键。
  • 读者还应当评价是否有某些入选标准使研究样本不典型、不具有代表性,或与研究所感兴趣的人群不相关。
  • 但实际上,研究结果很少是完全不相关的:“我们的患者和研究的受试者存在量的差异(他们的年龄、社会阶层、结局事件的危险等级以及对治疗的反应不同)而不是质的差异(完全没有治疗反应或是没有任何危险因素)。这种对治疗反应质的差异是很少见的;

因此,临床试验还是趋于有很好的外部真实性的。

四、随机化之后剔除研究对象

(一)影响与建议

  1. 在随机化之后剔除研究对象(Exclusions after randomisation)会使治疗效果间的比较产生偏倚。随机化分组可使治疗组间在基线时具有可比性。任何使治疗组间偏离这种可比性的因素都会导致偏倚,除非这些因素是随机产生的,但这又不太可能。
  2. 因此,在主要分析(primary analysis)时,统计学家都建议纳入所有参与随机化分组的研究对象,而且将他们归入随机化时的原组别分析。研究者都倾向于使用这种意向性分析(intent-to-treat analysis)。简单来说,一旦受试者被随机化分组了,就应按照随机化时的分组进行分析。
  3. 对一个随机对照试验进行主要分析时使用意向性分析可以避免那些与非随机化丢失受试者相关的偏倚。研究者也可以按照是否完全遵从试验方案或实际接受的治疗分组(按接受治疗与否)来进行次要分析(secondary analyses),这样的次要分析最好是事先计划的。
  4. 只要研究者标明这些是次要分析和非随机化的比较,那么,次要分析就是可以接受的。但当研究者剔除受试者,把实际上是次要的、非随机化的比较当作主要的、随机化的比较来报道,问题就会滋生。这种分析使临床试验类似于队列研究,却被标榜为随机对照临床试验。在分析时剔除受试者可能会得到错误的结论(Panel 1)
  5. 研究者常常不提供那些被剔除者的信息。在一项对1997年发表在主要医学期刊上的249个随机对照临床试验的回顾显示,只有2%(5/249)明确报道了所有参与随机化分组的受试者是根据原随机化分组进行分析的。有一半的文章(119/249)注明进行了意向性分析,却没有提供任何这方面的依据。
  6. 此外,研究者常常不报道是如何剔除受试者的。由于缺少这方面信息,读者误认为这些研究应用了意向性分析且没有任何受试者被剔除。我们称之为“无明显的剔除”。
  7. 读者常认为没有明显剔除受试者的研究偏倚较少,但实际上可能存在相当多的没有报道的受试者剔除。这种没有明显剔除受试者迹象的试验在方法上要弱于那些至少报道了一些剔除方面信息的研究。换句话说,有一些较多偏倚的研究被误解为没有偏倚,而许多较少偏倚的研究被误认为有偏倚;我们把这种不一致性称为剔除的悖论(exclusion paradox)。在研究者们全面报道随机化之后的受试者剔除情况前,读者应关注这一搅局的悖论。
  8. Panel 1:一项比较磺吡酮和安慰剂预防心肌梗死复发的临床试验
    • 在这项试验中,研究者在主要分析中比较心源性死亡率,而非全因死亡率的差异。
    • 在分析中,研究者因发现患者不符合研究入选要求而不恰当地剔除受试者,对试验结果造成了影响。剔除了7名因过去接受过治疗的受试者,其中6名在治疗组,1名在对照组,导致治疗组与对照组相比有更多死亡的患者被剔除。
    • 美国食品与药物管理局详细的审查结果指出安慰剂组的一些患者也可以因为相同的标准而被剔除,但在试验中却没有。研究方案中也没有提到入组后剔除不适当受试者的相关事项,特别是已经死亡的患者。
    • 研究者还剔除了2例治疗组和1例对照组的死亡病例,理由是依从性太差而无法分析。但在研究方案里却没有提到因依从性差而剔除受试者这一项。
    • 研究者还使用了7日原则(7-day rule)。即如果一名患者至少7天未接受治疗或在治疗结束7天以后死亡均为不可分析的死亡病例。
    • FDA委员会并没有对此项操作提出强烈批评,因为在试验方案中描述了此项规则,且这项规则的运用对总体结果也没有影响。
    • 在这项试验中,对受试者的不恰当剔除最终影响了试验结果。虽然研究者初次报道治疗组的心源性死亡率下降了32%(P=0.058),然而对研究重新分析的结果显示治疗效果要弱得多,当包括了未被纳入和未被分析的所有研究对象时,死亡率下降仅21%(P=0.16)。值得注意的是这里使用了P。我们推荐使用可信区间报道结果。
    • FDA确认该试验存在不恰当剔除影响试验结果。FDA委员会宣布磺吡酮不能作为或宣传为发生一次心肌梗死后数月的关键期内预防死亡的药物。因为在仔细检查后,发现这些数据不像一开始那样可信了。

(二)应注意的问题

  1. 在开始讨论如何在随机化过程后正确处理剔除受试者这一问题之前,我们必须承认讨论这一问题的基础很薄弱。关于如何剔除受试者的报道很少,而且剔除受试者的悖论误导着读者。
  2. 研究者应该提供整个临床试验中剔除受试者的清晰的、详细的过程。当缺少这方面的报道时,读者要持怀疑的眼光。CONSORT指南(CONSORT guidelines)声明中有专门的流程图作为指南。
  3. 最佳的情况是,研究者在随机化过程后没有剔除受试者并且应用意向性分析。
  4. 评价随机化之后剔除受试者是否恰当的答案很简单:这样做是不允许的。所有入选的受试者应该包括在原随机分配的组别中进行分析。虽然临床试验通常比较复杂,但这一原则总是成立的。
  5. 一个可以减少随机化过程之后剔除受试者的实用方法是,尽量在最后的时刻对受试者进行随机化分组。
    • 如果在确定受试者时就进行随机化分组,而不是在治疗开始前进行,那么任何发生在治疗开始前的剔除都将成为随机化之后的剔除。
    • 研究者可以通过推迟随机化分组过程到治疗开始前那一刻来解决这一问题。
  6. 如果研究者报道了他们在随机化过程之后剔除了某些受试者,那么我们应该仔细审视这些剔除过程,因为这可以使治疗组间的比较产生偏倚。
  7. 在随机化过程之后剔除受试者有很多原因,包括发现受试者不符合入选标准、在随机化之后治疗开始之前发生了结果事件、偏离研究方案、失访等。

五、发现不符合入选条件的受试者

  1. 在一些试验中,参与者被入选了,之后却发现不符合入选条件。这种情况通常不是随机发生的,所以在这一时刻剔除入选者会造成结果严重偏倚。例如,研究者更容易关注那些对治疗毫无反应或发生副作用的受试者,因此这些受试者比其他参与者更容易被判断为不符合入选条件。另一种情况是,如果一个医生认为某些病人适合某项治疗,当这些病人被随机化分入他认为不适当的治疗组时,他很有可能会终止这些病人的试验。
  2. 不符合入选标准的受试者应保留在试验中。有一种情况可以例外,即入选标准的确立较困难时。此时,研究者应该在随机化时,从每个病人获得相同的信息,并交由对治疗分组不知情的人员来判断他们是否符合入选标准。这一人员可以是个人或一个团队,用这种方式来减少偏倚。

六、随机化之后、治疗开始前发生结局事件

  1. 研究者有时报道,他们将那些在治疗开始前或治疗产生效果前发生结果事件的受试者剔除。

    例如,在一项研究某一特殊药物对死亡率影响的临床试验中,研究者将那些在随机化分组后治疗开始前或在接受至少7天药物治疗之前死亡的受试者作为不可分析的数据剔除。

  2. 这种剔除很有吸引力,因为这些死亡不会被认为是治疗造成的。如果这一论证成立的话,那么在整个试验过程中,所有安慰剂组发生死亡的患者均可以被剔除,因为理论上,没有一例死亡和治疗相关。这一例子说明了随机化后治疗前剔除发生结局事件的受试者可能存在的问题。

  3. 随机化分组可以平衡各组间那些不可归因的死亡。任何在随机化分组后发生的受试者剔除,哪怕以最科学最公正的方式进行,也不能提高、相反是损害这种平衡。这作为不适当剔除受试者的一条“后验”理论(Post hoc rationale)。

  4. 后验理论(Post hoc rationalisation)是指研究者观察到结果后修改试验规则以利于证明他们的研究假设。

    假定一个研究者认为某种药物可以减少某一情况相关的死亡率。在数据分析之后,研究者注意到在开始药物治疗前或服用药物尚未到7天时,治疗组有14例死亡而安慰剂组有2例死亡。然后研究者将这些死亡认定为与治疗无关的死亡,而从分析中剔除。在报道中把这种剔除说得再有逻辑性,也会严重偏倚研究结果。

  5. 如果是先验规则(a priori rationalisation),只会使试验的执行复杂化;如果是后验规则,则会引入偏倚并损害试验结果的真实性。

  6. 我们几乎不可能知道研究者在试验中何时制定了入选规则。

    • 因此,比较乐于观察到的现象是在随机对照临床试验中,研究者并没有在随机化过程之后剔除受试者。
    • 所有被随机化分组的受试者的数据均应包括在分析中。
    • 在临床随机试验的分析中,不管是计划的还是非计划的,为了效率而剔除那些无法分析的结局事件通常是不能接受的

七、偏离研究方案

  1. 在很多试验中都会发生偏离所分配治疗的事件。有些研究者建议在最终分析时应剔除那些严重偏离所分配治疗的受试者,或者只包括偏离前的那部分数据。虽然这种方法看上去很有吸引力,但是它存在一个很严重的缺点:“偏离某一种治疗方案的人群和偏离另一治疗方案的人群是那么的不相同……,以至于留在原不同治疗组的患者间的比较存在严重偏倚。”
  2. 例如,研究者想了解预防性应用抗生素是否可以降低植入子宫内避孕器(IUD)后发热的发生率。
    • 研究者随机将患者分入抗生素组和安慰剂组。
    • 但在抗生素治疗组,25%的患者没有服用抗生素偏离了治疗方案。实际上这部分患者接受的治疗(没有任何治疗)和安慰剂组是相同的。
    • 那么,研究者在分析时应剔除这部分患者吗?还是研究者应该将他们并入安慰剂组,与那些坚持接受治疗的抗生素组的病人进行比较呢?
    • 一些研究者倾向于使用这些表面上看上去非常有吸引力的方法。
  3. 然而对于主要分析(primary analysis),这些方法是不能接受的。因为这使得两个治疗组的患者不再具有可比性。
    • 没有服用抗生素的患者可能是因为她们的健康状况更好或是对植入IUD的耐受性更好。
    • 无论是以上哪一种情况,她们发生发热的可能性更小。
    • 如果研究者将这部分偏离治疗的人剔除,那么抗生素组中剩余的是那些更易感染的患者:对治疗的比较遭到了偏倚。
    • 如果研究者把这些偏离治疗的人归入安慰剂组一起分析,那么不仅抗生素组中剩余的是那些更易感染的患者,而且安慰剂组将混入那些不易感染的患者。
    • 那些偏离治疗方案的人可以是更健康的,但也可以是病情更重的,但这一点并不重要,因为无论是哪种情况,治疗组间的比较都出现了系统性偏倚。
  4. 研究者应该随访所有偏离试验方案的患者,并且将他们的数据包括在原分配的组别中进行分析。
    • 在上面这个例子中,偏离抗生素治疗方案的患者应该保留在该组中进行分析。
    • 同样地,任何偏离安慰剂组治疗方案的患者也应该留在该组中进行分析。
  5. 不管在试验过程中发生了什么状况,研究者都应该比较随机被分配为抗生素治疗和安慰剂治疗的两组人。
    • 这种方法可以为临床所感兴趣的问题(例如,在IUD植入前预防性使用抗生素是否可以预防发热?)提供非偏倚的切实的答案。
    • 因此,如果研究者报道剔除了偏离试验方案的受试者,或者将偏离某一治疗方案的患者归入另一组分析,那么这种治疗方案间的比较是存在偏倚的,就会导致临床试验类似于观察性研究。

八、失访

  1. 失访(Losses to follow-up)可能是随机化过程后剔除受试者最让人烦恼的原因了。

    • 原因可以是参与者搬家或拒绝继续参加试验等。
    • 如果失访受试者的结果信息可以通过其他渠道获得,如国家死亡登记系统(national death registry),那么这些失访者仍可以包括在分析中。但是这种机会比较少。
    • 如果没有有关这些失访者结局事件的信息,研究者别无选择,只能将他们从分析中剔除。
    • 任何的剔除都会损害试验的内部真实性,比较组之间失访率的差异造成的影响更大。因此,研究者必须将失访减少到最低程度。
  2. 减少失访有时是很困难的。研究者必须重视并且尽力制定和 采取避免失访的一些措施。

    • 例如,研究者可以在随机化过程之前把那些看上去很可能会失访的患者剔除。
    • 另一种方法是通过获得的联系方式找到失访者,或雇用专人小组去拜访那些失访者。
    • 或者两种方法联合运用。
  3. 某些研究者使用一些方法来提高随访率(这些方法不但可以提高随访率,还可以提高研究者所感兴趣的主要数据的质量)。

    • 一种方法是使用多个地理位置佳,且容易随访的诊所。有的诊所交通不便利,研究者却还期望患者只去这一家诊所。
    • 迎合受试者的兴趣和需要。
    • 减短数据收集的步骤到可以掌控的范围。
    • 随访的过程不要过度加重参与者负担。
  4. 完全没有失访是不可能的。不必过于强调无法克服的困难,研究者应该更努力以提高随访率(Panel 2)。

  5. 怎么样的失访率是可以接受的?只有一个答案,0%,这样才能保证随机化的效力(benefits)。

    • 很明显,很多时候这是不现实的。
    • 有的研究者建议使用5和20准则(five-and-20 rule of thumb)
      • 失访率小于5%偏倚较小
      • 失访率大于20%会严重影响试验内部真实性
      • 5%-20%之间导致中等程度的问题
      • 通过用最差的情况作敏感性分析,他们提出当失访率超过20%时,试验的真实性难以成立,我们对此也表示同意。事实上,有些杂志拒绝发表失访率超过20%的研究。
      • 虽然5和20准则很有用,在那些结局事件较少的情况下,它会使问题过于简单化。
  6. 对失访率的估计依据很多因素:例如研究所需的检查项目、结局事件的发生率、随访的时间长度。

    • 例如,如果研究者研究的是在医院生产的妇女产后第1天内的结局事件,那没有人会失访。
    • 如果研究者研究的是非洲妇女(她们常常没有手机和住址)使用杀微生物制剂来预防艾滋病传播的情况,并随访一年,我们预期5%〜15%的失访率,虽然希望失访率更低些。实际上,在这种情况下,很多研究者的失访率更差,但近期不懈的努力使失访率降至1.5%左右。
  7. 另一条准则是不要让失访率超过结局事件的发生率。

  8. 比失访率的绝对值更重要的是两组之间失访率的差异。

    • 研究者应该分析两组失访率差异。如果失访与不快或不适感、毒性、或治疗有效性有关,会产生偏倚。
  9. 在任何情况下,研究都应该记录并分析失访者的数据到失访的那个时间点。

  10. Panel 2:增加随访率的方法

    • 雇佣人员管理和跟进随访;
    • 如果受试者没有回来随访,雇佣一组人员打电话或拜访受试者家中或工作单位;
    • 在随机化分组前剔除可能不愿参加随访的受试者;
    • 在随机化分组前剔除可能会离开居住地的受试者;
    • 获得受试者的联系方式(如受试者、不与受试者住在一起的受试者亲朋好友、受试者家庭医生的信箱、电话、电子邮箱等),如果受试者没有参加随访,促使他们参加随访,或者便于重新找到该受试者;
    • 获得受试者的身份编号,如国家医保号码;
    • 为受试者而不是为研究者和试验执行者挑选便利的地点(除了中心诊所、医院外,挑选更多的地点,邻近受试者的居住地,易到达,关注受试者在随访时等待的时间);
    • 随访时使试验流程流水线化,快速完成每一次随访;
    • 让数据收集的过程尽量简短到不增加受试者负担的范围内;
    • 提供优质免费的医疗服务;
    • 提供资金资助,特别是受试者用于交通的时间和花费

九、结论

  1. 研究者应尽量减少随机化过程之后剔除受试者并采用意向性分析。
  2. 同时遵循CONSORT指南(CONSORT statement)声明来报道研究。
  3. 流程图或试验档案(flow diagram/trial profile) 可以帮助记录试验参与者的去向和结局。
  4. 对于读者而言,不报道剔除情况令结果难以解释,剔除的悖论误导读者对试验质量的理解。对剔除错误的处理可以造成方法学上的困难。
  5. 遗憾的是,对这些方法的解释又很有吸引力,从而掩盖了问题的严重性。读者必须同时与不充分的报道和他们的直觉相斗争,以发掘那些有损真实性的潜在危害。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

随机试验中的盲法:盲法的对象及作用

一、摘要

  1. 盲法代表了一段跨越两个世纪的辉煌历史。虽然全世界大多数研究者都理解盲法的概念,但在这些一般性的理解当中还存在一些混淆。
  2. 对不同的人来讲,单盲、双盲、三盲这三个词语代表着不同的含义。很多研究者还把盲法误认为就是分配隐藏。这种混淆表明了对这两个概念均存在误解。
  3. 盲法是指让受试者、研究者(通常是医务工作者)、评估者(疗效考核者)不清楚谁接受了何种治疗,这样他们不会受影响。
  4. 盲法可以减少对结局事件的差异性评估(信息偏倚),同时还可以提高受试者的依从性,留住他们,减少其他支持或治疗的偏倚性差异(有时被称为共同干预)。
  5. 很多研究者和读者天真地认为,只要一个随机对照临床试验是双盲的,那么它的质量就很高,就好像双盲是随机对照临床试验的一个必要条件。
  6. 虽然应用双盲(研究者、受试者和疗效考核者均被盲)是一种较强的设计,没有应用双盲的临床试验不能想当然地就被认为是较差的试验。
  7. 与其简单地写上双盲这样一个词,倒不如仔细的说明谁不知道分组,怎样使之实现。
  8. 除了在评估死亡这种客观的结局事件之外,当研究设计中至少疗效考核者被盲时,其结果就较可信。
  9. 如果研究者能正确地报道他们如何使用盲法,读者就可以进行评价
  10. 然而很多文章没有进行正确的报道。如果一篇文章写其应用了盲法却没有任何相关的说明,那么读者仍应以怀疑的眼光来评价盲法对偏倚的减少作用。

二、前言

盲法(blinding)在临床试验中的应用已跨越了两三个世纪。多数研究者理解盲法的概念,但在这一般性的理解当中还有一些混淆。

对不同的人来讲,单盲、双盲、三盲这三个词语代表着不同的含义。很多研究者将盲法误认为就是分配隐藏(allocation concealment)。这种混淆表明了对这两个概念均存在误解。

这两者在概念上和实际操作上都不相同:

  1. 盲法防止确认偏倚(ascertainment bias),确保分配治疗之后的分组序列隐藏。
  2. 分配隐藏可以避免选择偏倚,在分配治疗之前隐藏分配的顺序。
  3. 有些试验中,盲法是不可能实现的,但是分配隐藏却总是可以实现的。

盲法是随机对照临床试验的一个重要而独特的方面。盲法是指让受试者、研究者(通常是医务工作者)、评估者(疗效考核者)/assessors (those collecting outcome data)不清楚谁接受了治疗,这样他们不会受其影响。盲法可以在临床试验的多个阶段控制偏倚,尽管其意义(relevance)视试验具体情况有所不同。

三、盲法的潜在作用

(一)对受试者设盲

  1. 如果患者知道自己的治疗组别,可能会影响他们对治疗的反应。
    • 如果患者知道他们被分配接受一种新的治疗方法,他们可能有着更好的期待,或者是有更多顾虑。
    • 而那些被分配接受标准治疗的患者,可能会觉得失去了接受新治疗的机会,或者因为接受的是标准治疗方法而放松了自己。
    • 虽然有证据表明,新的治疗方法可能优于、也可能差于标准治疗方法,但受试者通常假定新的治疗方法会优于标准治疗方法:新的意味着是更好的。
  2. 患者一旦知道了接受何种治疗,而且对这种治疗有一定的想法,心理上和行为上的反应都会发生改变。
  3. 对治疗分配的知晓也会影响依从性和参与者的去留(panel 1)。

(二)对研究者设盲

  1. 研究者指一个较广泛的团队,包括但不限于试验设计者,还将包括受试者入组者(participant enrollers)、随机化执行者、医务工作者、干预咨询者、数据收集者。
  2. 特别应被盲的研究者,包括医务工作者(例如主治医师和护士)及试验干预的咨询者(例如进行健康行为指导的人),他们在整个试验中与受试者接触。
    • 如果研究者不被盲,他们对某一干预支持或反对的态度会直接影响受试者。他们的倾向性可以表现在:
      • 辅助治疗或护理(共同干预措施)的差异性使用上
      • 从试验中剔除受试者的标准不同
      • 对治疗剂量的差异性调整
      • 当研究者知道了干预分组后,可能会鼓励患者继续或退出试验。

(三)对评估者设盲

  1. 盲法更重要的一点是可以减少对结局事件的差异性评估,常被称为信息偏倚(information bias)或确认偏倚。
    • 例如,如果疗效考核者(outcome assessors)知道干预分组且认为新的治疗方法优于传统治疗方法,他们可能会对该干预组记录更多的治疗反应。
    • 在一项安慰剂对照的关于系统性硬化的研究中,未被盲的神经科评估医师较被盲者明显给予干预组更好的评价。
  2. 主观性的结局事件(如疼痛分数等)很容易受到影响出现偏倚。
  3. 一些看似客观的结局事件也可受主观因素影响,如输卵管炎。
  4. 一般来说,结局事件越是不主观,盲法用于减少观察偏倚 (observer bias)的作用就越少,因为客观结局事件(硬终点)/objective (hard) outcomes发生偏倚的可能性很小。如,对干预措施的认识很少能影响对死亡这种 硬终点的评估。

(四)成功盲法的潜在益处:panel 1

被盲者 作用
受试者 对干预措施心理上或生理上的反应差异减少
更易遵守试验方案
减少寻求其他治疗措施
不容易失访,易得到终点事件资料
研究者 不会把其倾向性意见传递给受试者
不会区别给予其他治疗
不会区别调整治疗剂量
不会区别剔除受试者
不会区别鼓励患者继续试验或劝其退出试验
评估者 不会影响他们对结果的评估,特别是那些主观结局事件

四、盲法的解释

(一)非盲法(开放或开放标记)/Non-blinded (open or open label)与盲法

  1. 非盲法(开放或开放标记)是指在整个试验中,参与研究的所有人都知道什么患者接受什么治疗。
  2. 盲法是指受试者和(或)研究者和(或)疗效考核者(assessors)对受试者的治疗分配不知情。

(二)单盲(single blind)

  1. 单盲通常是指这三方中的一方(多数是受试者)对试验的干预分组不知情。
  2. 一个单盲的临床试验有时候也指疗效考核者对试验分组不知情,而受试者和研究者知道谁接受干预。

(三)双盲(double-blind)

  1. 在一项双盲临床试验中受试者、研究者、疗效考核者在整个试验过程中均对试验分组不知情。
  2. 既然有三方均不知情,双盲这个词容易让人误解。然而在医学研究中,研究者通常就是疗效考核者,在这种情况下,双盲就很准确地描述了两方被盲。

(四)三盲(triple blinding)和四盲(quadruple blind)

  1. 三盲是指在双盲的基础上,数据分析也采用了盲法原则。

  2. 然而有些研究者将以下情况称为三盲,即当有不同的人担当研究者和疗效考核者且连同受试者一起被盲时。

  3. 研究者很少应用四盲(quadruple blind)这个词,如果使用,是指受试者、研究者、评估者和数据分析者均被盲。

  4. 因此,五盲(quintuple blind)想必是指治疗分组表丢失,没有任何人知道任何事。

    在本章节中,当我们使用双盲或其衍生词汇时,是指使受试者、研 究者、评估者对治疗分组不知情的各个步骤。我们呼吁研究者在报道随机对照临床试验时,仔细阐述他们采用了何种步骤,对谁采用了盲法。

五、安慰剂和盲法

  1. 干预措施(治疗)有时对结局事件没有作用。当在一个设计良好的随机对照临床试验中应用一个实际无效的干预时,有时会对受试者的态度产生积极的效果,从而影响治疗效果。研究者把这种现象称为安慰剂效应(placebo effect)。
  2. 安慰剂是指研究者在临床试验中给予对照组一个无活性作用的制剂。在对照组中使用安慰剂可以平衡治疗组中的安慰剂效应,从而可以纯粹的评价治疗作用。
  3. 安慰剂除了可能影响受试者的心理外,并没有其他任何作用。一个活性的安慰剂(active placeb)是指可以产生类似于干预措施产生症状或副作用(如口干、出汗)的那些安慰剂,避免因为这些症状而使治疗分组被识别。
  4. 在缺乏有效治疗措施时,多数研究者认为,评估一项新的治疗方法的疗效应尽可能在对照组中应用安慰剂。事实上,应用盲法时常常需要使用安慰剂。
  5. 然而当存在已被证实的标准有效的治疗方法时,对照组常被给予这种标准治疗,与新的治疗方法进行比较。
    • 此时研究者比较的是两种治疗方法而不存在安慰剂组。
    • 但即便在这种情况下,为了实现盲法,研究者常使用一种双模拟(double-dummy)方法,即用两种安慰剂。如,比较两种药物,一种是红色胶囊,一种是蓝色胶囊,研究者会另外准备两种红色和蓝色的安慰 剂胶囊。这样两组均会服用一红、一蓝两种胶囊,一个活性,一个无活性。

六、盲法是否可以防止偏倚

  1. 一些研究者、读者、编辑过分强调盲法在防止偏倚中的作用。
    • 有些人甚至认为只有使用双盲的随机对照临床试验才是高质量的(认为双盲是随机对照临床试验的必要条件)。
    • 事实上科学研究远比此复杂。一项随机对照试验即便没有应用盲法,方法上也可以是完全正确的;相反,虽然应用了双盲,方法学上也可能不正确。
  2. Lasagna很早就阐述了这一概念:“我们应用更批判性的眼光来看待安慰剂。因为安慰剂和双盲已成为我们意识和文献所迷恋的对象。过度强调安慰剂和盲法的重要性(Respectability)、客观性(Infallibility)和科学性(Scientific Savoir-faire)其实是不必要的。”
  3. 虽然双盲原则上意味着科学性较强的试验设计,但它不是试验总体质量的主要指标。而且许多研究也无法采用双盲。这些研究应该从总体价值上进行评价,而不是仅看是否采用了无法施行的双盲原则。
  4. 然而,这并不是说盲法不重要。盲法可以减少偏倚的发生,证据也证实了这种作用。
  5. 研究调查表明,总体上,在减少偏倚上盲法没有分配隐藏来得重要。

七、描述盲法时应注意的问题

(一)如何在文章中正确报道盲法

  1. 一般而言,当研究者报道他们在试验中应用了盲法,读者会设想他们避免了偏倚。经典的论据也支持这种推断。
  2. CONSORT指南建议,研究者不能仅仅报道他们应用了单盲、双盲或三盲,而是应该尽可能地说明他们使用什么方式,对谁采用了盲法。
  3. 如果研究者报道他们对受试者、调查者、评估者应用了盲法,他们同时还应提供盲法实施的具体信息(如胶囊、药片、薄膜/film等包装的情况)、治疗特征的一致性(药品的外观、口感、给药方式),以及安排分配表(如,试验过程中这个分配表放在何处,何时为分析数据揭盲,在哪些情况下可为某个病例破盲)。这些信息可能支持也可能不支持双盲的说法(panel 2)。
  4. 如果研究者正确报道盲法的实施细节,读者可以进行判断。不幸的是,多数文章没有相关报道。如果研究者陈述做了一项应用了盲法的研究,却没有相应的详细说明,这时读者应抱以批判的眼光来审视其减少偏倚的作用。例如,有一项关于预防性应用抗生素的临床试验声明使用了盲法,但方法学部分的报道显示并没有盲法具体的实施步骤。
  5. 理想状况下,研究者也应该提及盲法是否成功实现。研究者可以通过调查受试者、医务工作者或疗效考核者对干预分组的认识来评估盲法是否成功 (panel 3)。
  6. 原则上来说,这些人对干预分组的猜测应该不优于机遇。而现实情况下,盲法可能非常成功,但受试者、医务工作者、疗效考核者却可能因为一些细小的信息猜到分组情况。
  7. 不同程度的副作用暗示着其接受的是干预治疗。虽然尽力实行双盲,但某些干预带有非常易辨认的副作用,如果副作用发生了,受试者和研究者就会得知其接受了真正的治疗。
  8. 比副作用暗示作用更强的是临床终点。研究者喜欢看到临床疗效。如果看到治疗效果,研究者和受试者通常会推断有疗效的患者接受的是有效的(新的)而不是对照组(标准疗法)。如果新的治疗确实更有效,那么他们推测出正确分组的机会就会高于机会性猜中的比例。试验最后对盲法效果的测试实际上可能是对疗效或副作用的测试。
  9. panel 2:有关盲法的描述
    • “在重症监护病房中,患者、护士、研究者或其他任何医护人员均不知道治疗分组。所有的统计分析也是在盲法的情况下进行的。随机化权威(Randomisation authorities)来视察并报告任何可疑的打破盲法的步骤。没有发现相关的记录……新药及安慰剂(只有vehicle没有活性药物)装入相同的注射器或袋子中经微泵或容器注入(syringe pump infusion or for volumetric pump infusion)。”
    • “……以一种双盲、安慰剂对照的方式……患者和医生都无法区分安慰剂和西布曲明胶囊。安慰剂或西布曲明胶囊要求整颗吞服,因此口感相同……对试验结果的分析是在随机化分析代码公布之前进行的。”
    • “这是一项双盲研究,受试妇女及研究人员,包括家庭健康中心的工作人员,均不知道何组使用了nonoxynol 9 film。薄膜(film)在外形、包装、标记上均相同。”
    • “新药doxycycline和安慰剂均为胶囊包装,外形一致……随机化分组号码保存在美国(研究是在肯尼亚进行的)。因此,所有的管理和评估是在不知道治疗分组的情况下进行的,研究者和受试者对试验结果均不知情。在数据收集结束后分组代码才被公布。”
  10. panel 3:评估盲法是否成功
    • 我们对126名员工进行了调査,询问他们哪个薄膜是安慰剂。
      • 18%的人认为是A薄膜(安慰剂)
      • 13%的人认为B薄膜(nonoxynol 9)是安慰剂
      • 69%的人表示不知道哪个是安慰剂
    • 在68个健康教育者中(最可能反应受试者观点的人员)
      • 13%认为B是安慰剂
      • 71%的人不知道哪个是

(二)盲法调查的有用性

  1. 此外,参与者可能不愿意如实回答问卷,因为他们不想暴露已知道分组的事实,换句话说,如果他们破解了分组,他们可能会给出相反的回答来掩盖已知道分组的事实。
  2. 这些情况带来的困难,加上副作用、疗效等带来的解释上的困难,让我们质疑在某些情况下对盲法调查的有用性。
  3. 研究者需认真考虑盲法调查的有用性,但如果他们进行了此项调查,应该对评估的结果进行如实报道。
  4. 最起码要报告盲法实施失败的环节,例如安慰剂与治疗药物不一致。
  5. 已发表的文章很少报道盲法的评估,但如果提供相关信息,读者应仔细审视。

(三)无法实行双盲的研究

  1. 在某些研究中,双盲是很难实行的。
    • 关于手术的临床试验无法实行双盲。
    • 比较的是从耳朵取血或从拇指取血疼痛程度的差别。
  2. 如果研究者没有将他们的研究描述成双盲,在科学性上仍然可以是很强的。
  3. 除了试验的其他方法学部分以外,读者应对缺少盲法可能带来多少偏倚进行评价。弄清在该试验中对谁使用了盲法,可能会有什么益处(panel 1)。
    • 事实上,对疗效考核者实施盲法常常是可行的,也是推荐的,哪怕是在开放的临床试验中。
    • 治疗前和治疗后的损伤可通过影像学方法记录,然后由一个和试验无关的人员进行评估。
    • 由对治疗分组不知情的人员来评判结局变量是较可信的。
    • 但这一推荐不是绝对的。有些硬终点,如死亡,很少可能发生确认偏倚。换句话说,对疗效考核者实行盲法对硬终点的评估基本没有作用。

八、结论

  1. 盲法包含了一段跨越两个多世纪的历史。多数研究者了解盲法的定义,但在一般的理解上仍存在着混淆。
  2. 在临床试验中,研究者必须清楚描述对谁使用或没有使用盲法,而不是简单的标榜单盲、双盲、三盲。
  3. 读者在阅读和评价临床试验报告时要注意这些说明。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

随机试验样本量的计算

一、摘要

  1. 研究者在进行随机试验前应该正确地计算样本量,并在他们的报道中充分描述细节。
  2. 在这些先验的计算(a-priori calculations)中,检测效果大小的确定(例如:治疗组和对照组的事件概率)反映了内在主观的临床判断。而且,这些判断对样本量的计算影响很大。
  3. 我们质疑那些没有精确计算样本量的试验缺乏伦理性。
  4. 如果研究者使用严谨的方法来消除偏倚、恰当的描述来避免误解、始终公布结果来避免发表偏倚,那些低把握度的试验是可以被接受的。
  5. 从关注样本量转变到注重方法学质量也许能使更多试验产生较少的偏倚。结果不够精确但没清偏倚的试验胜过完全没有结果的试验。

二、前言

随机试验样本量(Sample size)的计算似乎无从下手。事实上,研究者应该正确计算样本量,并在发表的报告中充分描述主要细节。研究的方法学家在相关文章和书籍中描述了步骤。协议起草委员会(Protocol committees)和伦理审查委员会(ethics review boards)要求附上相关内容。试验报告统一标准指南(CONSORT reporting guidelines)里详细规定了样本量的计算。几乎获得所有人的同意。

早在四分之一个世纪前,一项重要的推动措施在医学界获得一致通过Tom Chalmers领导的研究小组发表了一篇里程碑式的文章,详细阐述了医学杂志上发表的所谓阴性随机试验(negative randomized trial)缺乏统计学把握度(statistical power)。

Thomas Clark Chalmers, MD

Chalmers在长期的职业生涯中,发表了数百篇文章。这篇关于样本量和把握度的文章被广泛引用。矛盾的是,他反而因此而困惑。甚至把这篇合著的文章视为危害性最大的文章。为什么?我们将在后面描述他的担忧。

三、样本量计算的组成成分

二分类结果的试验(如患病和健康)计算样本量的时候,要求四个组成成分:I类错误、把握度、对照组事件发生率以及所要研究的治疗效果(或近似的:治疗组事件发生率)。

除了其他必需的假设外,其他类型结果的试验同样运用这些基本的成分。

例如,对于计量结果的试验及其典型的统计检验,研究者可能会假设治疗和对照组之间的均数(means)和均数的方差(a variance for the means)有差异。

(一)I类错误(type I error,α)

  1. 当事实上两种治疗没有什么差别的时候,研究者却可能得出治疗者有差别的结论。
  2. I类错误(α)估计了发生假阳性(false-positive)结论的可能性。
  3. 按照惯例,α最常被设定为0.05,意味着研究者希望得到假阳性结论的可能小于5%。

(二)把握度(power)和Ⅱ类错误(type Ⅱ error,β)

  1. 其次,当事实上两种治疗确有不同的时候,研究者却可能得出治疗没有什么差别的结论,这也就是假阴性(false-negative)结论。

  2. Ⅱ类错误(β)估计了这种假阴性结论的可能性。

  3. 通常,研究者将β设定为0.20,意味着他们希望得到假阴性结论的可能小于20%。

  4. 把握度(power)衍生于β。把握度在数学上是β的补数(1-β),代表避免假阴性结论的可能性。即当事实上两种治疗确有不同的时候,研究者确实得出治疗有差别的可能性。

  5. 例如,β = 0.20,则把握度就是0.80。即,如果假定两种治疗的差异在人群中是真实存在的,那么把握度为80%的试验就有80%的机会发现两种治疗方法的差别。

    不同错误类型 定义
    I类错误(α) 在治疗效果相同的真实情况下,检测出统计学显著差异的可能性。(也就是假阳性结果的可能)
    Ⅱ类错误(β) 在治疗效果的差异真实存在的情况下,没有能检测出统计学显著差异的可能性。(也就是假阴性结果的可能)
    把握度(1-β) 在治疗效果的差异真实存在的情况下,检测出统计学显著差异的可能性

(三)对照组事件发生率(event rate in the control group)

研究者估计治疗组和对照组真实的事件发生率(true event rates),并作为输入参数。通常,我们推荐估计整个人群的事件发生率,然 后确定想要研究的疗效。

(四)所研究的治疗效果/治疗组事件发生率(treatment effect of interest/event rate in the treatment group)

例如,研究者估计对照组事件发生率为10%。接着他们可能估计绝对变化(如绝对减少3%),相对变化(相对减少30%),或简单地估计治疗组事件发生率为7%。

研究者利用上述这些假设来计算样本量。标准文件描述了包括二分类的、连续的和时间-结局事件(time-to-event measures)可测量的计算步骤。

四、选择不同的I类错误和把握度所产生的效果

(一)合理的假设

  1. 通常情况下,α=0.05,把握度=0.80,就足够了。然而,根据研究课题的不同,其他的假设也是合理的。
  2. 例如,如果一种子宫切除术的标准预防性抗生素是有效的且副作用很少,在一项研究新抗生素的试验中,我们可能为了减少假阳性(false-positive)结论的可能性将α错误设定得更低(如0.01)。我们甚至考虑将把握度降到0.80以下,因为我们并不在意错过一个有效的治疗:因为有效而安全的治疗已经存在了。
  3. 相反,如果研究者进行一项试验,应用一种标准预防性抗生素的同时,补充了某种既便宜又安全的维生素,想观察下是否可以增强抗生素的效果。犯α错误几乎不会带来什么伤害,所以可以设定在0.10,这样可能更有意义。如果这种便宜而简单的干预能带来益处,我们当然不想错过它。因此,研究者可能提高把握度到0.99。

(二)直接改变了样本量的大小

  1. 减少α和增加把握度均会导致样本量的增多:
    • α从0.05减少到0.01促使样本量在把握度=0.50的时候增加70%以及把握度=0.80的时候增加50%。

    • 当α=0.05的时候,把握度从0.50增加到0.80使样本量翻了1倍,从0.50到0.99则几乎有5倍的增加。

    • 因此,α和把握度的选择决定了样本量和试验费用。

(三)I类错误的单侧检验还是双侧检验

  1. 一些研究使用α错误的单侧检验(one-sided tests)来减少对样本量的估计。我们不鼓励这种做法。
  2. 迄今为止,就已知的生物学观点而言,在我们假设双侧检验的同时,单侧检验确实也是合理的。但是,这种决定不应该影响样本量的估计。
  3. 我们建议无论是假设单侧或双侧检验,应该是相同的标准。因此,单侧检验α=0.025应该产生和双侧检验α=0.05相同水平的证据。
  4. 利用单侧检验来减少所需样本量的大小被过度轻信了。

五、人群参数的估计(population parameters)

对于一些研究者来说,估计人群参数(例如治疗组和对照组的事件发生率)有着非常神秘的寓意。另一些则嘲笑这种主张,因为估计参数是试验的目的:在试验前却需要进行猜测,多么滑稽可笑。

然而,关键的一点是研究者并不是去估计人群参数本身,而是估计他们认为值得检测的治疗效果。这是有巨大差别的。

The key point, however, is that they are not estimating the population parameters per se but the treatment effect they deem worthy of detecting.

(一)估计对照组事件发生率(event rate in the control group)

  1. 通常,研究者从估计对照组的事件发生率开始。有时候数据匮乏会导致不可信的估计。例如,我们需要估计肯尼亚内罗毕(Nairobi,Kenya)计划生育人群中使用宫内避孕器后盆腔炎事件的发生率。政府官方估计是40%,医学中心的临床医师则认为估计得太高了,建议改为12%。我们保守地计划定在6%上,但是在一项真实的随机试验中,安慰剂组的实际数据是1.9%。比第一个估计整整减少了20倍,如此极大影响了样本量的计算。
  2. 发表的报告可以提供对对照组终点(endpoint)的估计。但是,他们通常整合了一大堆有差别的资料,例如不同的居住位置、纳入标准、终点和治疗。虽然如此,关于对照组的一些信息往往是存在的。这成为起点。
  3. 在一项预防子宫切除术后发热的研究中,假设非常合理的数据显示在应用标准的预防性抗生素后,10%的妇女出现发热。这就成为对照组的事件发生率。

(二)估计所研究的治疗效果/治疗组事件发生率(treatment effect of interest/event rate in the treatment group)

  1. 对所要研究效果的估计应该反映临床的可鉴别度(clinical acumen)和潜在的公共健康利益(potential public-health。这个重要的方面不能由统计学家单独决定。其决策过程有赖于临床背景知识的积累。
  2. 假设标准预防性抗生素的费用是10美元,副作用很少,口服给药。新 的预防性抗生素的费用是200美元,副作用较多,静脉给药,但抗菌谱广。所有这些实际因素和临床因素均对决策过程施加了压力。考虑到对照组10%的发热发生率,了解了临床背景,我们将对什么样的研究结果感兴趣,从10%减少到9%、从20%降到8%、30%到7%、40%到6%、50%到5%,还是其他?决定对多大的差异进行检测反映了内在主观的临床判断,正确答案并不存在。我们只能说30%的减少量是值得研究的,但是其他研究者可能决定50%的下降幅度。

(三)人群参数对样本量的影响

  1. 这些参数假设显著影响了样本量的计算。保持对照组估计的参数为常量,疗效的减半必然使试验样本量增加4倍以上。类似地,疗效减到四分之一要求试验样本量增加16倍以上。换言之,样本量的增加与疗效减少的平方成反比,统计学家称之为二次方程相关(a quadratic relation)。

  2. 以我们最初的参数估计为例,对照组10%,干预组6%,α=0.05,β=0.90,那么每组必须有大约965名参加者(Panel 2)。疗效的轻微改变造成试验规模的巨大变化。

    • 将疗效减半,调整干预组的参数估计为8%,如此样本量需要4倍以上的增加,达到4301人。
    • 疗效减低到四分之一,调整干预组的估计为9%,那么试验规模必须有18倍以上的增加,达到每组18066人。
  3. 巨大的研究样本量和低的事件发生率使研究者感到无比挫败。这种挫败感部分来源于缺乏对二分类终点试验的认识,是分子事件(numerator events)推动了试验的把握度,而不是分母(denominators)。

    分子指对照组或治疗组中发生结局的参与者,分母是对照组或治疗组的所有参与者。

  4. 例如,假设α=0.05,希望结局事件的发生率下降40%。一项2000名参与者(1000名被分配到治疗组,1000名到对照组)、对照组事件发生率为10%的试验能提供的把握度等同于一项20000名参与者(每组分配10000人)、但对照组事件发生率只有1%的试验所产生的把握度。这两项试验需要的分子数值是一样的,都为160,大致满足把握度=90%。 \[1000 \times (0.1+0.1 \times 0.6) = 160\] \[10000 \times (0.01+0.01 \times 0.6) = 160\]

六、可纳入的参与者有限的解决办法

当样本量软件计算的试验样本量超过了可纳入的参与者人数的时候,会发生什么呢?通常,研究者会反向计算,为了能满足可纳入参与者的数量,他们使用低的把握度(如0.40)来估计样本量。

一些方法学家建议临床医生放弃这种低把握度(low power)的研究。许多伦理审查委员会认为低把握度的试验缺乏伦理道德。Chalmers关于已发表试验缺乏把握度的早期文章促使了这种反应,并带我们回到本章节开始部分的疑问。他觉得是他的研究小组的文章引起了这些过度反应。

Chalmers最后说明所谓的低把握度试验可以被接受,因为它们最后能通过meta分析(meta-analysis)整合起来。但是许多统计学家似乎并不支持这个观点,甚至包括那些赞同小规模试验的人。

然而,我们同意Chalmers的观点,这毋庸置疑会引起许多统计学家和伦理学家的不满。但我们的支持附带了三个条件。

(一)试验在方法学上非常严谨,可以消除偏倚

  1. 不幸的是,需要足够把握度这个咒语往往盖过了方法学中的其他部分的讨论。
  2. 例如,不充分的随机化往往产生偏倚的结果,并且这些偏倚的结果不能被补救,即使是能实现非常好的精确度(precision)的大样本量。
  3. 相反,如果研究者充分地设计和执行了试验,最终仍能产生一个对效果没有偏倚的估计,即使试验有低的把握度(和精确度)。
  4. 此外,因为结果是没有偏倚的,所以该项试验可以和类似的没有偏倚的试验在meta分析中整合起来。事实上,特别是合并进入前瞻性的meta分析,这种做法等同于多中心试验。

(二)作者必须充分地报道他们的研究方法和结果,以避免误解

  1. 如果作者在报道试验结果时使用了区间估计,那么治疗效果估计的较宽的可信区间在描述低把握度上较为准确。
  2. 可信区间的报道很有价值,可以避免由简单的P>0.05所带来的“无证据证明有,不等于有证据证明无(无有之据,非有无之据)”的问题。

(三)低把握度的试验无论结果如何必须被报道,才能被meta分析采用

  1. 发表偏倚(Publication bias)最严重的问题就是不发表低把握度的试验。发表偏倚是指发表的试验不能代表所有已开展的试验,通常是因为统计学显著的结果比不确定的结果更容易被接受和发表。低把握度的试验易出现这样的问题,因为它们有更多的机会产生不确定的结果。
  2. 但是,责难所有低把握度试验并阻止它们实施都会妨碍重要的研究。
  3. 不发表已完成的试验被认为是不科学和缺乏伦理的。试验注册系 统(Trial registration schemes)将进行中的试验进行分类,从而避免结果的丢失。此外,大的系统综述机构,最著名的是Cochrane 协作网(Cochrane Collaboration),细査未发表的试验以减少发表 偏倚。

(四)低把握度的试验(low-powered trials)被指责为缺乏伦理的原因

  1. 对样本量的偏见使较多消除偏倚的中肯意见黯然失色。
  2. 一个带着主观色彩的过程如何能引发对其伦理学正反面的辨证讨论?带着这种主观性,将试验伦理学建立于统计学把握度之上,这就显得过于简单和错位了。

事实上,既然研究者估计样本量是以不确切的猜测为基础,如果认为执行低把握度的试验是不道德的,那么这就是一种逻辑的极端,也许我们的世界再也没有试验了,因为样本量的决定总是充满各种问题。

“进行对照试验是不道德的,除非能够确保达到那个武断定义的统计把握度”

如果默许的代价是忽视医疗保健作用的话,上述声明一点意义都没有。关于低把握度试验是不道德的观点是不理性的,此外,有时也忽略了渴望参加试验的潜在参与者。

七、样本量的调整

(一)样本量桑巴舞(Sample size samba)

  1. 研究者有时会表演一段“样本量桑巴舞(samplesizesamba)”,实现足够的把握度。舞蹈涉及了对可纳入的参加者参数估计的重新调整(特别是检验有价值的疗效)。这种实践在我们和其他人的经历中经常发生。
  2. 基金赞助机构、协议起草委员会、甚至包括伦理审查委员会都鼓励这种回顾性的处理。这代表了一种对实际问题可运作的解决方法。
  3. 考虑到各种细节问题,我们不能过多地批评这个桑巴舞,因为它可能使许多重要的研究得以顺利实施。
  4. 此外,它如实描述了在给定假设的前体下,样本量估计的必要性。然而,在“低把握度试验是缺乏职业道德的”争论中,这种方法强调了不一致性(inconsistencies):在“桑巴舞”之前,计划的试验是缺乏职业道德的,但通过简单调整对效应大小的估计,使之符合伦理原则。
  5. 所有试验都有无数个把握度,低把握度只是相对而言。

(二)增加样本量

  1. 对于能够额外纳入参与者和研究经费充分的情况下,研究者应该考虑一种样本量调整的策略,这样可以解决一部分由样本量估算产生的问题。
  2. 调整通常是增加样本量。实现调整的方法有赖于事件发生率的修正、终点或治疗效应的改变。
  3. 重要的是,任何在试验中间阶段对样本量的调整都应该有避免偏倚的周密计划。
  4. 发起或指导委员会(The sponsor or steering committee)在草案中应该描述一个易懂的计划,关于潜在调整的时间和方法(the timing and method of the potential modifications)。

八、试验后计算把握度没有意义

  1. 试验得出治疗效应和结果的可信区间(confidence interval)。
  2. 可信区间体现了试验的把握度。因此,继续关注把握度不再有意义。
  3. 然而,试验结束后,一些研究者利用观察到的结果作为估计参数对统计学不显著的试验进行把握度的计算。这种尝试似是而非,但是,重复之 后,可以得出低把握度的答案。换言之,这种不值得推荐的尝试回答了一个已经被回答的问题。

九、读者应该如何看待样本量的计算?

读者应该在报告中看到样本量的估计是如何得来的。事实上,试验报告中的可信区间充分体现了把握度。然而,样本量计算仍提供了重要的信息。

  • 第一,它们规定了主要终点,这样可以保证结局变量不会改变,同时防止突出与非主要结局变量相关的明显效应。
  • 第二,知道了计划的样本量可以使读者对潜在的问题产生警觉。试验面临了募集困难?试验因统计学显著的结果提前中止?如果是这样的话,作者应该提供正式的统计学中止标准。如果他们没有使用正式的标准,那么多次审査数据就会加大I类错误(α)。类似的问题同样可以出现在比预期样本量大的试验。

提供预计的样本量,尽管其带着些主观性,却是为了使报道更加透明而做的前提。

(一)报告的低把握度或不报告样本量计算

  1. 报告的低把握度或不报告样本量计算通常不是致命的错误。低把握度反映了方法学知识的缺乏,但也可能暗示了潜在参与者数目不足。即使是基于低把握度,样本量的计算仍能提供上述提及的重要信息。
  2. 如果作者忽视描述预计样本量的计算,那么读者该怎么办?读者应该谨慎地解释结果,因为缺少主要终点的信息和中止标准。
  3. 此外,忽视报告样本量的计算暗示了方法学的无知,这可能成为其他问题的先兆。

(二)重视被研究者隐藏的系统误差(偏倚)

  1. 作者不会报告拙劣的随机化、不充分的分组隐藏、失败的盲法或缺失的参与者保持率,但这些均隐藏了能导致偏倚的研究设计缺点。
  2. 因此,基于以下2个主要原因,读者应该减少对样本量不足的担心:
    • 首先,样本量不足不会产生偏倚;
    • 其次,任何随机误差都能透明地体现在可信区间和P上。
  3. 对读者来说,最严重的问题应该是没有被揭示的系统误差。换言之,读者不应该简单地因为低把握度而完全否认一项试验,相反应仔细衡量 它的价值。过去或未来的其他研究可能会涉及这个价值。

(三)发现所有样本量计算背后的假设

  1. 读者应该发现所有样本量计算背后的假设:I类错误(α)、把握度(或β)、对照组事件发生率及感兴趣的疗效(或近似的治疗组事件发生率)。
  2. “当α=0.05及把握度=0.90时,我们计算必需的样本量为每组120人”的说法完全没有意义,因为忽视了对效应大小和对照组事件发生率的估计。
  3. 即使是小规模的试验也能有高把握度,并足以检验大的治疗效应。

(四)检验样本量计算的各种假设

读者还应该检验样本量计算的各种假设。例如,他们可能相信更小的效应比预期的效应大小更有价值。因此,读者应意识到他们所偏好的效应大小相关的试验,其把握度较低。

Readers should also examine the assumptions for thesample size calculation. For example, they might believe that a smaller effect size is more worthy than the planned effect size. Therefore, the reader would be aware of the lower power of the trial relative to their preferred effect size.

十、结论

  1. 统计学的把握度是重要的概念,但不应作为伦理学的领导者。

  2. 对于那些仅仅因为主观上样本量的计算不准确即认为试验不符合伦理原则的做法,是令人质疑的。

  3. 我们赞同研究计划实现适当的把握度(adequate power),并向ISIS-2这种大规模多中心试验表示敬意,事实上,更多这样的研究应该被开展。

    ISIS-2 (Second International Study of Infarct Survival) Collaborative Group. Randomised trial of intravenous streptokinase, oral aspirin, both, or neither among 17,187 cases of suspected acute myocardial infarction: ISIS-2. Lancet 1988; 2: 349–60.

  4. 然而,如果科学领域只局限于大型试验,许多不能回答的医学问题仍将继续没有答案。

  5. 从关注样本量转变到注重方法学质量也许能使更多试验产生较少的偏倚。结果不够精确的无偏倚试验优于完全没有结果的试验。