0%

如何让临床试验中的数据造假露出原型

说明
1. 译自Al-Marzouki S,et al.Are these data real? Statistical methods for the detection of data fabrication in clinical trials.BMJ,2005,331(7511):267-70.

一、前言

大多数临床试验的统计分析是基于数据是真实的假设进行的,在数据分析过程中可以发现大量的随机误差(accidental errors),但是如果人们试图“编造(make up)”数据,他们可能会以一种并不明显的方式进行,从而避免有较大的差异(discrepancies)。因此,人为编造的数据具有特定的统计特征,这些特征在包含随机误差的数据中不明显,但已经有若干统计分析方法来检测临床试验中的欺诈数据。

在本文中,我们使用统计方法来检查发表在BMJ杂志上的两个随机对照试验的数据是否有问题。其中一项试验中,BMJ的referees提出了存在学术不端行为的可能性,这是基于所计算的P值与试验报道的均值,标准差和样本量不一致。另一项试验应该不存在学术不端行为,但我们使用相同的方法来分析,从而便于比较和说明问题。

二、方法

(一)饮食试验

  1. 存在问题的试验(简称为“饮食试验”)是一项单盲的随机对照试验。研究了富含水果和蔬菜的饮食对831名冠心病患者的影响。

  2. 患者被随机分配到干预饮食组(I组,n=415)或对照组,即常规饮食组(C组,n=416)。

  3. 该研究目的是分析干预饮食(富含水果和蔬菜)对两年后冠心病危险因素的影响。

    我们不分析两年随访后的数据,因为干预措施可能会导致两组之间的差异。

(二)药物试验

  1. 第二个试验(简称为“药物试验”)是来自31个中心的21750名轻度高血压患者的药物治疗效果的随机对照试验。

  2. 本文随机选择了5个中心,其中838名患者具有所选变量的完整数据。

  3. 患者同样被随机分为接受药物组(I组,n=403)或安慰剂组(C组,n=435)。

  4. 该研究的目的是确定药物治疗是否可以减少35-64岁男性和女性因高血压和冠状动脉事件导致的卒中发生率,随访两年。

    同样,我们不分析随访后的数据

(三)检验数据真伪的理论及方法

我们对两个试验中两个随机分组(即干预组和对照组)的基线数据进行了各种分析,希望能够找到证明饮食试验中的数据并不是正常产生的证据。我们用来自药物试验的数据进行对比,期望它们能够显示在试验期间正常收集的数据的典型模式。

随机分组之间的基线数据相似

  1. 在一项随机试验中,随机分组之间的基线数据应该相似。随机分组之间的均值、方差和数据分布的形状必然相似,因为这些随机分组之间的差异只可能是偶然因素造成的。
  2. 这就是为什么通常在真实试验中不对基线资料进行统计学显著性检验的原因。如果进行这样的检验,大约每20个检验中就有一个是纯粹偶然的。
  3. 本文中使用t检验来比较随机分组之间的变量的均值,用F检验来比较随机分组之间的变量的方差(标准差)。

随机分组之间数字位偏好(digit preference)相似

  1. 由人(而不是机器)记录(或编造)的数据倾向于显示某些数字的偏好,例如四舍五入到最接近的5或10。这可以在最后记录的数字位(digit of numbers)中看到,称为“数字位偏好(digit preference)”。这种数字位偏好应该在随机分组之间非常相似。
  2. 我们使用\(\chi^2\)检验来检查数据的最后一位数字是否存在特定值的趋势,以及随机创建的两个组中是否有任何观察到的相同的数字位偏好(digit preference)。
  3. 数字位偏好可以在人为记录的所有数据中发生,但是这种偏好的任何模式在随机分组之间应该是相似的。

三、结果

  1. 表1显示了每个试验中两组试验共有的变量的统计描述。
    • 药物试验的值在干预组和对照组无显著差异。

    • 饮食试验中身高和胆固醇的标准差存在显著差异。

  2. 表2显示了每个试验的t检验和F检验的结果
    • 在饮食试验中,22个变量中有16个变量的方差显著不同,有10个变量的均值显著不同。并且其中有几个P值极端小。

      正常来说,在上述比较中,约5%的变量可能存在P<0.05,并且不应出现极端小的P值的情况。

    • 在药物试验中,虽然只比较了五个变量,但没有一个变量的基线数据的均值和方差,在干预组和对照组之间有显著差异。

  3. 表3显示了数字位偏好的分析(前提假设:最后一位数字的分布相同)
    • 在饮食试验中,所有\(\chi^2\)值都非常显著,表明所有变量都表现出强烈的数字位偏好,甚至连胆固醇检查的实验室结果,数字偏好也是明显的(这是出乎意料的)。

    • 在药物试验中,\(\chi^2\)值对于身高非常显著(表示可能预期的强烈数字偏好),但对任何其他测量值都不显著。

  4. 表4显示了随机分组之间的数字位偏好模式差异的\(\chi^2\)检验结果。
    • 事实上,产生数字位偏好是很正常,但是在每个随机分组中都应该显示出类似的数字位偏好模式。

    • 在饮食试验中,除了胆固醇,空腹血糖,咖啡因,胡萝卜素和维生素A之外,干预组和对照组中其他所有变量的最后一位数字的分布显著不同。

    • 在药物试验中,两个随机分组在最后一位数字的分布上远远没有显著的差异。

四、讨论

(一)P值的大小

  1. 饮食试验中基线资料的变量之间的均值和方差上的差异表明,这两组根本不可能通过真正的随机分配而产生。
  2. 从几个变量差异的t检验得出的P值的大小(极端小)与随机分配入组的原则也相悖。
  3. 同样,随机分组之间数字位偏好模式的显著差异提供了额外的证据,证明这不是真正的随机试验。

(二)随机化过程

  1. 如果这不是随机试验,那么这些数据是如何产生的?一种可能性是数据本身是真实的,但随机化过程已被颠覆(实际操作上没有随机)。这可以解释基线资料的变量均值之间的一些差异。
  2. 如果存在对随机化过程的颠覆:例如有意让胆固醇高的患者更多地进入对照组。那么就会在干预组和对照组的基线数据上出现较小的差异,并且在医学相关的变量之间也会更加一致。但是在表格2中,Cholesterol的方差在两组间有差异,而Total cholesterol的方差在两组间则没有差异。这就很难用“随机化过程的颠覆”来解释这些异常的数据表现。
  3. 此外,更难以解释的是基线数据方差的差异。部分变量的方差和均值均存在非常显著的差异,而对于身高,Cholesterol和甘油三酯,在方差方面存在非常显著的差异,但均值却没有差异。如果有故意将血压较高的患者分配到某一组的倾向,那么我们可能会发现平均值存在显着差异,但方差没有差异。但是,我们没有找到这种情况。
  4. 此外,在招募时,医生或卫生专业人员可以随时获得的变量的均值没有明显的差异。

(三)数字位偏好

  1. 数字位偏好本身并不是学术不当行为的证据。例如可能出现两个随机分组之间的数字位偏好的不同模式,如果其中一个人记录了治疗组的数据,另一个记录了对照组的数据。
  2. 然而,如果声称该试验是单盲的,这意味着那些记录数据的人不应该知道患者被分配到哪个组。因此,在这种情况下,随机分组之间的数字位偏好应该不存在显著的差异。
  3. 但也许试验并非如文章所描述的那样采取单盲,并且记录数据的那些记录员会分成2组,分别记录对照组或者处理组的数据。这可能导致随机分组之间的变量的数字位偏好存在差异,因为这个过程带有人为判断的因素。
  4. 但这仍然无法解释两组之间的均值和方差的差异,因为数字位偏好对均值和方差的影响只会很小。

五、结论

  1. 随机分组之间的均值,方差和数字位偏好的差异,一起强有力地证明了在饮食试验中有数据造假的行为。
  2. 饮食试验的数据要么是完全捏造的,要么是篡改过的,而且证据确凿,应该采取适当的措施来处理这个问题。