0%

临床研究基本概念:随机对照试验(七)

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

随机试验的多重比较之一:终点及治疗

一、摘要

  1. 研究者同时研究多个终点和多种治疗方法导致了多重比较问题的产生。
  2. 一个临床试验可以产生数以千计的比较。研究者可能仅报道结果阳性的比较。
    • 如果不是故意的,那么是一种不科学的做法。
    • 如果是故意的,就是一种欺骗性的做法。
    • 研究者应该报道所有分析过的终点事件和比较。
  3. 有些统计学家建议对这些多重比较问题进行统计学校正。
  4. 简单来说,他们的无效假设是治疗对所有主要的终点事件无疗效,而有效假设是对其中一个或多个终点事件有效。
  5. 一般来说,对多重比较的统计学校正可以提供针对性不太强的初步结果。
  6. 如果临床决策完全依赖于其中一个或多个终点事件是否阳性,那么研究者必须进行校正。
  7. 在这种情况下,校正在一定程度上解救了扫射式分析。
  8. 读者需要意识到那些潜在的未被报道的分析。

二、前言

  1. 许多临床试验的分析性问题来自多重比较(multiplicity)。研究者多数对这一问题持负责态度,但也有些人忽视这一问题,或者不清楚该问题带来的后果。
  2. 说句玩笑话,有些研究者发表结果以前一直在玩弄数据。他们比较额外的终点,操控组间比较,做很多亚组分析,重复进行期中分析(interim analyses)。由于研究者增加了没有设计过的分析使分析过程变得更加困难。
  3. 理论上一个临床试验可以产生数以千计的比较,在这种情况下,许多阳性的结果是机遇造成的。一些统计学家建议通过校正(adjustments)来解决这一问题,实际上,校正带来的是更多的问题。
  4. 多重比较问题有几个因素造成。这里我们阐述的主要是多个终点和多项治疗。对多重比较问题的研究是充满争议和复杂的。在如何处理多重比较问题上,各种观点相去甚远(panel 1)。多重比较引发了激烈的辩论。
  5. panel 1(多重比较统计学校正的不同观点):
    • 一些统计学家支持对多重比较进行校正,但另一些则反对。
    • 一些近期发表的文章在热烈的争论多重比较问题。但我认为……让以下观点达成一致是比较困难的……
    • 多重比较不需要进行校正。
    • Bonferroni校正说好听点是多余的,说难听点是对统计推断有害的。
    • 每进行一次假设检验I类错误会累积,研究者应对此进行控制。
    • 流行病学及公共健康研究领域的研究者应报道I类错误是如何定义和校正的,包括多重比较。

三、事件发生的问题所在

(一)多重比较引发的问题

  1. 首先,研究者应该报告所有的分析比较。然而研究者有时会隐藏完整的分析,破坏读者对结果的理解。
  2. 其次,如果研究者恰当地报告了所有的比较,统计学家会因多重比较而提出进行统计学校正。研究者想知道是否需要进行校正,以及读者是否期望看到它们。

(二)多重比较引发的后果

  1. 多重比较问题会增加统计检验的总体错误。
    • I类错误(α) (type I error, alpha error)是指两个因素之间实际上并不相关的情况下,因为机遇观察到两者相关的可能性。这告诉读者发生假阳性(false positive)结果的可能性。
    • 当进行多次独立检验时就会产生问题。如果用d来表示比较的数目,那么至少得到一个阳性结果的可能性是\(1-(1-α)^d\)
    • 通常情况下,我们设定α = 0.05。因此,如果进行10次独立的相关性检验,在无效假设下(assuming the universal null hypothesis of no association in all ten),那么至少一次检验结果为假阳性的概率\((1-[1-0.05]^{10}\)为0.4。
    • 换句话说,进行10次独立的相关性检验至少发生一次假阳性的概率是40%。然而,无论是进行了一次检验还是百万次检验,对于每一次单一的比较而言,发生假阳性的概率仍是0.05 (5%)。

四、推荐使用的统计学方法

  1. 多数统计学家建议通过减少比较的次数来解决多重比较问题。
  2. 如果进行了多重比较,一些统计学家建议进行校正。
  3. 当在研究中进行了d次比较后,应对所使用的α,也就是假阳性(false positive)率,进行相应校正。
  4. 一些研究者使用Bonferroni校正(Bonferroni adjustment)。
    • 如果一个试验的总体假阳性率是α,那么α/d是每次比较的显著性水平,而不是α。
    • 因此,当a为0.05,进行10次比较,那么每次检验的显著性水平应该是0.005。
    • 同样的,研究者可以使用原来的α,但把每个得到的P乘以d。一个试验进行了10次比较,观察到的P=0.02,此时校正的P即为0.2。
    • 值得注意的是,Bonferroni方法会使Ⅱ类错误β(type Ⅱ error,beta error)增大,因此会减弱统计把握度。
  5. 但Bonferroni校正说明的是另一个错误的假设。
    • 它假设存在一个普遍的无效假设(the universal null hypothesis),非常简单,对所有研究终点(endpoints)而言,比较的两组结果相同。
    • 相反的假设是,在一个或多个终点中,两组有差异。
    • 在医学研究中,上述假设提出的是个无关紧要的问题。
    • 临床上,一个相似的情况可能是:“……医生为同一个病人申请了20种不同的试验室检查,结果除了被告知其中几项是异常的以外,没有进一步的信息。”
  6. 药物管理需要明确是或否的答案,推动着多重比较问题校正的发展。校正符合假设-统计检验模式-支持或不支持-正好是药物管理需求。
  7. 对要发表的研究,我们推荐用区间对效果进行估计(如相对危险度和可信区间)而不是假设检验(仅用P)。我们建议在多数临床决策研究中避免多重比较校正。

五、多个终点

(一)多重比较的滥用

  1. 虽然随机对照试验的理想设计和分析依赖于主要终点(primary endpoint),但研究者常常会分析超过一个终点。
  2. 最糟的对多重比较的滥用是那些背后的、未报道的数据挖掘(data-dredging)。
    • 研究者对多个终点(multiple endpoints)进行了分析,但却只报道阳性的结果。
    • 不报道所有的比较,如果不是故意的,那么是一种不科学的做法。
    • 如果是故意的,就是一种欺骗性的做法。
    • “事后选择具有显著性治疗差异的终点事件是一种欺骗性的做法,会过高估计治疗效果。”研究者必须停止这种欺骗性的做法。

(二)对策

  1. 研究者应该限制主要终点检验的数目。

    • 在研究方案中预先设定一个或多个研究主要终点。
    • 关注研究可以提高试验的可行性和结果的可信性(increases the simplicity of implementation and the credibility of results)。
  2. 在数据分析阶段也要遵行试验方案。

  3. 方案以外的数据挖掘应标明和完全报道。

    • 令人失望的是,试验报告通常会包含对未包括在试验方案中的终点的检查,但忽略了protocol中计划的primary analyses。
  4. 保证研究者遵循方案的安全措施可提供帮助

    例如《柳叶刀》杂志要求所有随机对照临床试验提供试验方案,并进行追踪

  5. 更广泛地注册和发表试验方案可以发挥更好的作用。

  6. 研究者必须报道所有进行的比较。

(三)统计学校正的影响

  1. 对多个终点进行统计学校正可能会影响结果解释。例如,研究者开展了一项随机对照临床试验,比较一种新型抗生素和传统抗生素对预防子宫切除术后发热发生率的差异。
    • 发热作为主要终点

      • 结果显示新药组发热有50%的下降
      • RR=0.50
      • 95%CI=0.25〜0.99
      • P=0.048
      • 结果是阳性的
    • 现在假设他们定义了两个主要终点:伤口感染和发热。

      和许多临床试验的典型情况一样,终点事件是高度相关的。

      • 发现新药组发热减少50%
      • 伤口感染也下降了52%
      • RR=0.48
      • 95%CI=0.24〜0.97
      • P=0.041
  2. 一些统计学家的观点是研究者应该进行多重比较校正(correct for multiple comparisons)
    • 例如,将每一个P都乘以比较检验的次数
      • \(0.048 \times 2=0.096\)\(0.041 \times 2=0.082\)
    • 校正后的两个P都>0.05
    • 因此试验结果是阴性的
  3. 经验丰富的临床试验专家却不这么看结果。
    • 伤口感染是加强而不是减弱了发热这一终点结果。
    • 临床医师因为其生物学知识了解这两个终点事件高度相关。
    • 增加伤口感染这第二个终点事件并观察到相似结果,提高了新药能减少发热发生率这一结果的可信度。
    • 如果进行校正会破坏基本的发现也不符合逻辑。
    • 这好比一个医生发现患者的血红蛋白含量下降,却不进行治疗,因为他同时发现该患者的红细胞压积异常。
  4. 事实上,一些统计学家也赞成在前述情况下无需进行多重比较校正。
    • 一些之前倾向于多重比较校正的统计学家在某些临床决策情况下也认为不应该进行校正。
    • 如果研究者宣布一项治疗有效,同时所有的终点事件结果都阳性,或大多数(在方案中已确定的)都阳性,那么对多重比较的校正不是必需的。

(四)Bonferroni校正

  1. 对多重比较校正使用最多的Bonferroni校正(Bonferroni adjustment)至少是一种过度校正(overcorrection)。
  2. 当终点事件相关时,它是一种严重的过度校正,而多数情况下终点事件常常是相关的。
  3. 对P过度校正后影响了对试验结果的解释。
    • 对多重比较校正“机械化后,会损害结果解释,否定了绝大多数试验数据所提供信息的价值”。
  4. 临床见解(Clinical insights)还是相当重要的。
    • 研究者需要关注那些有临床意义最少数目的终点(smallest number of endpoints that makes clinical sense),然后报道所有终点的检验结果。
    • 如果研究多个主要终点,必须讨论附加的终点事件是加强还是减弱了核心发现。
    • 对多重比较形式上的校正常常是减弱而不是增强解释。

六、复合终点(Composite endpoints)

(一)优点

  1. 复合终点(Composite endpoints)解决多重比较问题。

  2. 当复合终点中的任何一项前瞻性定义的事件发生时复合终点事件就 发生了。

    例如,当以下任一项事件发生时(心肌梗死、卒中或心血 管死亡),一个心血管事件复合终点就发生了。

  3. 如果设计将复合终点作为主要终点:

    • 可以避免对各组分单独检验所致的多重比较问题。
    • 复合终点常常有较高的事件发生率,从而增加了检验把握度,或者减少了需要的样本量。

(二)缺点

  1. 然而,复合终点有时会造成结果解释上的困难。
  2. 例如,某一临床试验显示服用阿司匹林降低18%(相对危险度0.82[95%CI0.70〜0.96])正文定义的心血管终点事件(心肌梗死、卒中、心血管死亡),看上去是一个值得推荐的结果。
  3. 然而,进一步观察发现,它降低:
    • 44%的心肌梗死
    • 增加22%的卒中
    • 对心血管死亡没有影响
    • 18%的下降对于更重要的终点事件死亡和卒中来讲是没有意义的
  4. 复合终点常常会缺乏临床相关性。因此,复合终点解决了多重比较问题,提高了统计检验的效率,但却会带来结果解释上的困难。

七、多种治疗(多臂试验)

与多个终点相比,多种治疗时的多重比较问题较易解决。

  1. 首先,研究者可以对所有治疗比较组进行一个总体检验(如:在一个三臂的临床试验中比较A和B和C),或者通过剂量反应关系(dose-response relation)模型,避免多重比较问题。
  2. 其次,也是更重要的方面,研究者较少有机会对多种治疗进行数据挖掘(data-dredging)而不进行报道。
    • 在数据分析时,增加终点事件进行分析较容易,而增加治疗组就很困难。
    • 在理论上,他们可以进行一个多组比较的临床试验,然后只报道有利结果组的比较。
    • 但实际中,这种情况较少发生。读者通常可以看到临床试验的所有治疗组。
    • 事实上,多臂临床试验(multi-arm trials)在医学研究中扮演着非常重要的角色(panel 2)。
  3. Panel 2:多臂临床试验在医学研究中的角色
    • 多臂临床试验在医学文献中是十分常见的。
    • 一项对2000年Pubmed收录的平行设计随机对照临床试验的调查发现:25%的临床试验超过2个臂。其中,62%有三个臂,26%有四个臂,12%超过四个臂 (Altman DG, personal communication)。
    • 多数临床试验教材中阐述的是双臂试验。而且,一些著名的学者反对多臂试验。“如果只对两组比较,结果比较明确,阳性即是阳性,阴性即是阴性。”
    • 对多臂试验的反对主要是出于对把握度的考虑。目前已发表的临床试验的把握度均较低。在受试者数目有限的情况下,增加比较的组别会减弱把握度。虽然我们从某种程度上同意这种观点,但多臂临床试验除了在某些情况下具备的优点外,还可能是更有效率的一种设计。
    • 例如,有一种标准治疗方法和两种新治疗方法。一个双臂临床试验的设计是比较其中一种新的治疗方法与标准方法。然后再设计另一个临床试验比较另一种新治疗方法与标准方法。总体上来说,这种序贯设计的双臂临床试验的总样本及费用高于一个多臂临床试验。因此,多臂临床试验是有益处的。
    • 另外,多臂临床试验不一定会增加方法上的难度,它们可以像双臂试验一样去除选择偏倚。虽然执行和分析起来可能更加复杂,但这种复杂可以为我们带来更多的信息。
  4. 但形势也不是完全乐观的。读者可能没有看到所有治疗组间 的不同比较。
    • 例如,一个三臂的临床试验,可以产生七个比较分析(Fig)。
    • 如果超过三个臂,那些潜在的比较会显著增加。
    • 在比较前,研究者应该专门设定准备比较的组别。
  5. 对于多臂临床试验一种推荐的方法是对所有治疗进行一个总体检验。
    • 然而,一些方法学家认为这样的检验应用受限,因为它无法分辨究竟哪些治疗是有差异的,对发现真正的差异也缺少把握度。
    • 许多多臂临床试验设计成直接与对照组比较。
    • 因此,研究者应该事先计划所要进行的比较,限制比较的数目,在试验方案中事先写明。
  6. 多组检验也不一定需要进行多重比较校正。
    • 与多个终点事件的理由相似,临床医师常常发现增加一个组别是对结果的加强而不是减弱。
    • 例如,在上述描述的临床随机对照试验中,比较一个新型抗生素和传统抗生素对子宫切除术后发热的改善情况,研究者可能在200mg抗生素治疗的基础上,在该临床试验中增加一个300mg剂量的治疗组。
      • 结果显示200mg剂量治疗组发热减少了40%(相对危险度0.60[95%CI 0.37~0.98],P=0.044),结果是阳性的。
      • 300mg治疗组的结果是相似的,发热减少了45%(0.55[0.31〜0.98];P=0.041)。
    • 对多次比较的最简单的校正方法是对每一个P乘以比较的次数(如\(0.044 \times 2=0.088,0.041\times2=0.082\))。
      • 校正以后,治疗效果在α=0.05水平,没有显著性差异,因此效果是不确定的(即阴性)。
      • 临床试验者对此结果的解释是十分不同的。
      • 对发热这一终点,300mg治疗组的结果是增强而不是减弱200mg治疗组的结果。
      • 临床医师从生物学角度期待看到的是这样相似的结果,而不会信任校正多重比较后的结果。
      • 校正P,特别是当所校正的治疗组之间相关,并不能够帮助对结果的解释。
  7. 在多个治疗组情况下,研究者会采用一个事先设定的比较次序。
    • 例如,研究者可以决定将300mg治疗组与安慰剂组的比较作为首项试验,只有当该项比较阳性时,才进入到200mg治疗组的比较中。
    • 这样的步骤可以解决多重比较问题而不进行校正。
    • 对多重比较问题常规进行校正会使情况复杂化。

八、多重比较校正的作用

  1. 某些情况下,对多重比较的正规校正是不可避免的。
    • 一个显而易见的例子是向审批机构申报批准药物上市。
    • 如果研究者定义了一个以上主要终点事件,当一个或多个终点阳性时,如要宣布治疗是有效的,需要进行多重比较校正。
    • 扩展开来,如果研究者要基于多个终点中的任意一个阳性结果而决定宣称其效果,需要进行多重比较校正。
  2. 如果研究者决定用扫射式分析(scattershot analysis)多臂临床试验,这时需进行校正。
    • 例如,在一个四臂临床试验(治疗A,B,C,D)中,当下面任何两组的比较结果都是阳性时:A比B,A比C,A比D,A比B+C,A比B+D,A比C+D,或A比B+C+D,如要声称A有治疗作用,必须进行多重比较校正。
  3. 总之,如果谨慎分析后指出需要进行多重比较校正,这表明试验设计较差且目标含糊。
  4. 多重比较校正仅能部分恢复试验结果的可信度。而且,有时校正是恰当的,却很难进行。
  5. Bonferroni校正被广泛推荐,有很大一部分原因是其操作简便。但某些情况下,其他一些校正方式更加适用。
  6. 根据终点事件之间相关程度的不同,模拟试验展示了不同的多重校正策略,在Ⅰ类错误和把握度上有较大的可变性。这些对不同的校正方法的对比评估结果给大家提供了一些帮助,但是仍然无法给出一个明确的选择。通常情况下,校正可以提供粗略答案。

九、读者应注意的问题

  1. 读者应当期望研究者报道所有分析过的终点事件和比较过的治疗组的结果。
    • 但是评价他们是否报道了全部分析和比较结果通常是很困难的。
    • 如果能获得研究方案将有所帮助,但这也是很难的。
    • 我们鼓励读者去获得研究方案。
    • 差的、不完整的报道,使读者无从得知研究者进行了多少分析。
    • 遵行CONSORT指南(CONSORT statement)报告标准可以避免这些困难。
  2. 同时,读者应该期望研究者说明主要终点及其他终点事件,其他分析应标明为探索性分析。
    • 没有直接说明的时候,去寻找间接的说明。
    • 如主要终点事件仍不清楚,希望作者提供提示主要终点的统计学上的把握度分析。
  3. 如果作者进行了多重比较,读者应期待其进行说明。
    • 如果作者进行了过多的比较,如15个终点事件中1个是阳性的,需要谨慎的报道这些结果。
    • 如果多次比较产生了多种效果,作者应说明结果的内在一致性。
    • 更重要的是,透明地报道所有的比较及其结果允许读者自己得出结论。
  4. 如果某一试验报道的是一个复合终点,那么复合终点的组成成分应该具有共同的病理生理学基础。
    • 研究者应该将复合终点作为一个整体报道,而不是单独报道对各组成成分的作用。
    • 然而各组成成分应作为二级终点事件,在主要分析外进行报道。
  5. 总体上来说,读者并不需要期盼每个试验进行多重比较校正。
    • 对多数临床试验而言,多重比较校正没有依据,也没有帮助。
    • 一种具有争议的医学研究的例外情况是,当其完全依赖于一项或几项主要终点事件是阳性时,特别是在检验同一个无效假设的时候,对多重比较的校正有时可以解决扫射式分析的问题。