0%

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

随机试验样本量的计算

一、摘要

  1. 研究者在进行随机试验前应该正确地计算样本量,并在他们的报道中充分描述细节。
  2. 在这些先验的计算(a-priori calculations)中,检测效果大小的确定(例如:治疗组和对照组的事件概率)反映了内在主观的临床判断。而且,这些判断对样本量的计算影响很大。
  3. 我们质疑那些没有精确计算样本量的试验缺乏伦理性。
  4. 如果研究者使用严谨的方法来消除偏倚、恰当的描述来避免误解、始终公布结果来避免发表偏倚,那些低把握度的试验是可以被接受的。
  5. 从关注样本量转变到注重方法学质量也许能使更多试验产生较少的偏倚。结果不够精确但没清偏倚的试验胜过完全没有结果的试验。

二、前言

随机试验样本量(Sample size)的计算似乎无从下手。事实上,研究者应该正确计算样本量,并在发表的报告中充分描述主要细节。研究的方法学家在相关文章和书籍中描述了步骤。协议起草委员会(Protocol committees)和伦理审查委员会(ethics review boards)要求附上相关内容。试验报告统一标准指南(CONSORT reporting guidelines)里详细规定了样本量的计算。几乎获得所有人的同意。

早在四分之一个世纪前,一项重要的推动措施在医学界获得一致通过Tom Chalmers领导的研究小组发表了一篇里程碑式的文章,详细阐述了医学杂志上发表的所谓阴性随机试验(negative randomized trial)缺乏统计学把握度(statistical power)。

Thomas Clark Chalmers, MD

Chalmers在长期的职业生涯中,发表了数百篇文章。这篇关于样本量和把握度的文章被广泛引用。矛盾的是,他反而因此而困惑。甚至把这篇合著的文章视为危害性最大的文章。为什么?我们将在后面描述他的担忧。

三、样本量计算的组成成分

二分类结果的试验(如患病和健康)计算样本量的时候,要求四个组成成分:I类错误、把握度、对照组事件发生率以及所要研究的治疗效果(或近似的:治疗组事件发生率)。

除了其他必需的假设外,其他类型结果的试验同样运用这些基本的成分。

例如,对于计量结果的试验及其典型的统计检验,研究者可能会假设治疗和对照组之间的均数(means)和均数的方差(a variance for the means)有差异。

(一)I类错误(type I error,α)

  1. 当事实上两种治疗没有什么差别的时候,研究者却可能得出治疗者有差别的结论。
  2. I类错误(α)估计了发生假阳性(false-positive)结论的可能性。
  3. 按照惯例,α最常被设定为0.05,意味着研究者希望得到假阳性结论的可能小于5%。

(二)把握度(power)和Ⅱ类错误(type Ⅱ error,β)

  1. 其次,当事实上两种治疗确有不同的时候,研究者却可能得出治疗没有什么差别的结论,这也就是假阴性(false-negative)结论。

  2. Ⅱ类错误(β)估计了这种假阴性结论的可能性。

  3. 通常,研究者将β设定为0.20,意味着他们希望得到假阴性结论的可能小于20%。

  4. 把握度(power)衍生于β。把握度在数学上是β的补数(1-β),代表避免假阴性结论的可能性。即当事实上两种治疗确有不同的时候,研究者确实得出治疗有差别的可能性。

  5. 例如,β = 0.20,则把握度就是0.80。即,如果假定两种治疗的差异在人群中是真实存在的,那么把握度为80%的试验就有80%的机会发现两种治疗方法的差别。

    不同错误类型 定义
    I类错误(α) 在治疗效果相同的真实情况下,检测出统计学显著差异的可能性。(也就是假阳性结果的可能)
    Ⅱ类错误(β) 在治疗效果的差异真实存在的情况下,没有能检测出统计学显著差异的可能性。(也就是假阴性结果的可能)
    把握度(1-β) 在治疗效果的差异真实存在的情况下,检测出统计学显著差异的可能性

(三)对照组事件发生率(event rate in the control group)

研究者估计治疗组和对照组真实的事件发生率(true event rates),并作为输入参数。通常,我们推荐估计整个人群的事件发生率,然 后确定想要研究的疗效。

(四)所研究的治疗效果/治疗组事件发生率(treatment effect of interest/event rate in the treatment group)

例如,研究者估计对照组事件发生率为10%。接着他们可能估计绝对变化(如绝对减少3%),相对变化(相对减少30%),或简单地估计治疗组事件发生率为7%。

研究者利用上述这些假设来计算样本量。标准文件描述了包括二分类的、连续的和时间-结局事件(time-to-event measures)可测量的计算步骤。

四、选择不同的I类错误和把握度所产生的效果

(一)合理的假设

  1. 通常情况下,α=0.05,把握度=0.80,就足够了。然而,根据研究课题的不同,其他的假设也是合理的。
  2. 例如,如果一种子宫切除术的标准预防性抗生素是有效的且副作用很少,在一项研究新抗生素的试验中,我们可能为了减少假阳性(false-positive)结论的可能性将α错误设定得更低(如0.01)。我们甚至考虑将把握度降到0.80以下,因为我们并不在意错过一个有效的治疗:因为有效而安全的治疗已经存在了。
  3. 相反,如果研究者进行一项试验,应用一种标准预防性抗生素的同时,补充了某种既便宜又安全的维生素,想观察下是否可以增强抗生素的效果。犯α错误几乎不会带来什么伤害,所以可以设定在0.10,这样可能更有意义。如果这种便宜而简单的干预能带来益处,我们当然不想错过它。因此,研究者可能提高把握度到0.99。

(二)直接改变了样本量的大小

  1. 减少α和增加把握度均会导致样本量的增多:
    • α从0.05减少到0.01促使样本量在把握度=0.50的时候增加70%以及把握度=0.80的时候增加50%。

    • 当α=0.05的时候,把握度从0.50增加到0.80使样本量翻了1倍,从0.50到0.99则几乎有5倍的增加。

    • 因此,α和把握度的选择决定了样本量和试验费用。

(三)I类错误的单侧检验还是双侧检验

  1. 一些研究使用α错误的单侧检验(one-sided tests)来减少对样本量的估计。我们不鼓励这种做法。
  2. 迄今为止,就已知的生物学观点而言,在我们假设双侧检验的同时,单侧检验确实也是合理的。但是,这种决定不应该影响样本量的估计。
  3. 我们建议无论是假设单侧或双侧检验,应该是相同的标准。因此,单侧检验α=0.025应该产生和双侧检验α=0.05相同水平的证据。
  4. 利用单侧检验来减少所需样本量的大小被过度轻信了。

五、人群参数的估计(population parameters)

对于一些研究者来说,估计人群参数(例如治疗组和对照组的事件发生率)有着非常神秘的寓意。另一些则嘲笑这种主张,因为估计参数是试验的目的:在试验前却需要进行猜测,多么滑稽可笑。

然而,关键的一点是研究者并不是去估计人群参数本身,而是估计他们认为值得检测的治疗效果。这是有巨大差别的。

The key point, however, is that they are not estimating the population parameters per se but the treatment effect they deem worthy of detecting.

(一)估计对照组事件发生率(event rate in the control group)

  1. 通常,研究者从估计对照组的事件发生率开始。有时候数据匮乏会导致不可信的估计。例如,我们需要估计肯尼亚内罗毕(Nairobi,Kenya)计划生育人群中使用宫内避孕器后盆腔炎事件的发生率。政府官方估计是40%,医学中心的临床医师则认为估计得太高了,建议改为12%。我们保守地计划定在6%上,但是在一项真实的随机试验中,安慰剂组的实际数据是1.9%。比第一个估计整整减少了20倍,如此极大影响了样本量的计算。
  2. 发表的报告可以提供对对照组终点(endpoint)的估计。但是,他们通常整合了一大堆有差别的资料,例如不同的居住位置、纳入标准、终点和治疗。虽然如此,关于对照组的一些信息往往是存在的。这成为起点。
  3. 在一项预防子宫切除术后发热的研究中,假设非常合理的数据显示在应用标准的预防性抗生素后,10%的妇女出现发热。这就成为对照组的事件发生率。

(二)估计所研究的治疗效果/治疗组事件发生率(treatment effect of interest/event rate in the treatment group)

  1. 对所要研究效果的估计应该反映临床的可鉴别度(clinical acumen)和潜在的公共健康利益(potential public-health。这个重要的方面不能由统计学家单独决定。其决策过程有赖于临床背景知识的积累。
  2. 假设标准预防性抗生素的费用是10美元,副作用很少,口服给药。新 的预防性抗生素的费用是200美元,副作用较多,静脉给药,但抗菌谱广。所有这些实际因素和临床因素均对决策过程施加了压力。考虑到对照组10%的发热发生率,了解了临床背景,我们将对什么样的研究结果感兴趣,从10%减少到9%、从20%降到8%、30%到7%、40%到6%、50%到5%,还是其他?决定对多大的差异进行检测反映了内在主观的临床判断,正确答案并不存在。我们只能说30%的减少量是值得研究的,但是其他研究者可能决定50%的下降幅度。

(三)人群参数对样本量的影响

  1. 这些参数假设显著影响了样本量的计算。保持对照组估计的参数为常量,疗效的减半必然使试验样本量增加4倍以上。类似地,疗效减到四分之一要求试验样本量增加16倍以上。换言之,样本量的增加与疗效减少的平方成反比,统计学家称之为二次方程相关(a quadratic relation)。

  2. 以我们最初的参数估计为例,对照组10%,干预组6%,α=0.05,β=0.90,那么每组必须有大约965名参加者(Panel 2)。疗效的轻微改变造成试验规模的巨大变化。

    • 将疗效减半,调整干预组的参数估计为8%,如此样本量需要4倍以上的增加,达到4301人。
    • 疗效减低到四分之一,调整干预组的估计为9%,那么试验规模必须有18倍以上的增加,达到每组18066人。
  3. 巨大的研究样本量和低的事件发生率使研究者感到无比挫败。这种挫败感部分来源于缺乏对二分类终点试验的认识,是分子事件(numerator events)推动了试验的把握度,而不是分母(denominators)。

    分子指对照组或治疗组中发生结局的参与者,分母是对照组或治疗组的所有参与者。

  4. 例如,假设α=0.05,希望结局事件的发生率下降40%。一项2000名参与者(1000名被分配到治疗组,1000名到对照组)、对照组事件发生率为10%的试验能提供的把握度等同于一项20000名参与者(每组分配10000人)、但对照组事件发生率只有1%的试验所产生的把握度。这两项试验需要的分子数值是一样的,都为160,大致满足把握度=90%。 \[1000 \times (0.1+0.1 \times 0.6) = 160\] \[10000 \times (0.01+0.01 \times 0.6) = 160\]

六、可纳入的参与者有限的解决办法

当样本量软件计算的试验样本量超过了可纳入的参与者人数的时候,会发生什么呢?通常,研究者会反向计算,为了能满足可纳入参与者的数量,他们使用低的把握度(如0.40)来估计样本量。

一些方法学家建议临床医生放弃这种低把握度(low power)的研究。许多伦理审查委员会认为低把握度的试验缺乏伦理道德。Chalmers关于已发表试验缺乏把握度的早期文章促使了这种反应,并带我们回到本章节开始部分的疑问。他觉得是他的研究小组的文章引起了这些过度反应。

Chalmers最后说明所谓的低把握度试验可以被接受,因为它们最后能通过meta分析(meta-analysis)整合起来。但是许多统计学家似乎并不支持这个观点,甚至包括那些赞同小规模试验的人。

然而,我们同意Chalmers的观点,这毋庸置疑会引起许多统计学家和伦理学家的不满。但我们的支持附带了三个条件。

(一)试验在方法学上非常严谨,可以消除偏倚

  1. 不幸的是,需要足够把握度这个咒语往往盖过了方法学中的其他部分的讨论。
  2. 例如,不充分的随机化往往产生偏倚的结果,并且这些偏倚的结果不能被补救,即使是能实现非常好的精确度(precision)的大样本量。
  3. 相反,如果研究者充分地设计和执行了试验,最终仍能产生一个对效果没有偏倚的估计,即使试验有低的把握度(和精确度)。
  4. 此外,因为结果是没有偏倚的,所以该项试验可以和类似的没有偏倚的试验在meta分析中整合起来。事实上,特别是合并进入前瞻性的meta分析,这种做法等同于多中心试验。

(二)作者必须充分地报道他们的研究方法和结果,以避免误解

  1. 如果作者在报道试验结果时使用了区间估计,那么治疗效果估计的较宽的可信区间在描述低把握度上较为准确。
  2. 可信区间的报道很有价值,可以避免由简单的P>0.05所带来的“无证据证明有,不等于有证据证明无(无有之据,非有无之据)”的问题。

(三)低把握度的试验无论结果如何必须被报道,才能被meta分析采用

  1. 发表偏倚(Publication bias)最严重的问题就是不发表低把握度的试验。发表偏倚是指发表的试验不能代表所有已开展的试验,通常是因为统计学显著的结果比不确定的结果更容易被接受和发表。低把握度的试验易出现这样的问题,因为它们有更多的机会产生不确定的结果。
  2. 但是,责难所有低把握度试验并阻止它们实施都会妨碍重要的研究。
  3. 不发表已完成的试验被认为是不科学和缺乏伦理的。试验注册系 统(Trial registration schemes)将进行中的试验进行分类,从而避免结果的丢失。此外,大的系统综述机构,最著名的是Cochrane 协作网(Cochrane Collaboration),细査未发表的试验以减少发表 偏倚。

(四)低把握度的试验(low-powered trials)被指责为缺乏伦理的原因

  1. 对样本量的偏见使较多消除偏倚的中肯意见黯然失色。
  2. 一个带着主观色彩的过程如何能引发对其伦理学正反面的辨证讨论?带着这种主观性,将试验伦理学建立于统计学把握度之上,这就显得过于简单和错位了。

事实上,既然研究者估计样本量是以不确切的猜测为基础,如果认为执行低把握度的试验是不道德的,那么这就是一种逻辑的极端,也许我们的世界再也没有试验了,因为样本量的决定总是充满各种问题。

“进行对照试验是不道德的,除非能够确保达到那个武断定义的统计把握度”

如果默许的代价是忽视医疗保健作用的话,上述声明一点意义都没有。关于低把握度试验是不道德的观点是不理性的,此外,有时也忽略了渴望参加试验的潜在参与者。

七、样本量的调整

(一)样本量桑巴舞(Sample size samba)

  1. 研究者有时会表演一段“样本量桑巴舞(samplesizesamba)”,实现足够的把握度。舞蹈涉及了对可纳入的参加者参数估计的重新调整(特别是检验有价值的疗效)。这种实践在我们和其他人的经历中经常发生。
  2. 基金赞助机构、协议起草委员会、甚至包括伦理审查委员会都鼓励这种回顾性的处理。这代表了一种对实际问题可运作的解决方法。
  3. 考虑到各种细节问题,我们不能过多地批评这个桑巴舞,因为它可能使许多重要的研究得以顺利实施。
  4. 此外,它如实描述了在给定假设的前体下,样本量估计的必要性。然而,在“低把握度试验是缺乏职业道德的”争论中,这种方法强调了不一致性(inconsistencies):在“桑巴舞”之前,计划的试验是缺乏职业道德的,但通过简单调整对效应大小的估计,使之符合伦理原则。
  5. 所有试验都有无数个把握度,低把握度只是相对而言。

(二)增加样本量

  1. 对于能够额外纳入参与者和研究经费充分的情况下,研究者应该考虑一种样本量调整的策略,这样可以解决一部分由样本量估算产生的问题。
  2. 调整通常是增加样本量。实现调整的方法有赖于事件发生率的修正、终点或治疗效应的改变。
  3. 重要的是,任何在试验中间阶段对样本量的调整都应该有避免偏倚的周密计划。
  4. 发起或指导委员会(The sponsor or steering committee)在草案中应该描述一个易懂的计划,关于潜在调整的时间和方法(the timing and method of the potential modifications)。

八、试验后计算把握度没有意义

  1. 试验得出治疗效应和结果的可信区间(confidence interval)。
  2. 可信区间体现了试验的把握度。因此,继续关注把握度不再有意义。
  3. 然而,试验结束后,一些研究者利用观察到的结果作为估计参数对统计学不显著的试验进行把握度的计算。这种尝试似是而非,但是,重复之 后,可以得出低把握度的答案。换言之,这种不值得推荐的尝试回答了一个已经被回答的问题。

九、读者应该如何看待样本量的计算?

读者应该在报告中看到样本量的估计是如何得来的。事实上,试验报告中的可信区间充分体现了把握度。然而,样本量计算仍提供了重要的信息。

  • 第一,它们规定了主要终点,这样可以保证结局变量不会改变,同时防止突出与非主要结局变量相关的明显效应。
  • 第二,知道了计划的样本量可以使读者对潜在的问题产生警觉。试验面临了募集困难?试验因统计学显著的结果提前中止?如果是这样的话,作者应该提供正式的统计学中止标准。如果他们没有使用正式的标准,那么多次审査数据就会加大I类错误(α)。类似的问题同样可以出现在比预期样本量大的试验。

提供预计的样本量,尽管其带着些主观性,却是为了使报道更加透明而做的前提。

(一)报告的低把握度或不报告样本量计算

  1. 报告的低把握度或不报告样本量计算通常不是致命的错误。低把握度反映了方法学知识的缺乏,但也可能暗示了潜在参与者数目不足。即使是基于低把握度,样本量的计算仍能提供上述提及的重要信息。
  2. 如果作者忽视描述预计样本量的计算,那么读者该怎么办?读者应该谨慎地解释结果,因为缺少主要终点的信息和中止标准。
  3. 此外,忽视报告样本量的计算暗示了方法学的无知,这可能成为其他问题的先兆。

(二)重视被研究者隐藏的系统误差(偏倚)

  1. 作者不会报告拙劣的随机化、不充分的分组隐藏、失败的盲法或缺失的参与者保持率,但这些均隐藏了能导致偏倚的研究设计缺点。
  2. 因此,基于以下2个主要原因,读者应该减少对样本量不足的担心:
    • 首先,样本量不足不会产生偏倚;
    • 其次,任何随机误差都能透明地体现在可信区间和P上。
  3. 对读者来说,最严重的问题应该是没有被揭示的系统误差。换言之,读者不应该简单地因为低把握度而完全否认一项试验,相反应仔细衡量 它的价值。过去或未来的其他研究可能会涉及这个价值。

(三)发现所有样本量计算背后的假设

  1. 读者应该发现所有样本量计算背后的假设:I类错误(α)、把握度(或β)、对照组事件发生率及感兴趣的疗效(或近似的治疗组事件发生率)。
  2. “当α=0.05及把握度=0.90时,我们计算必需的样本量为每组120人”的说法完全没有意义,因为忽视了对效应大小和对照组事件发生率的估计。
  3. 即使是小规模的试验也能有高把握度,并足以检验大的治疗效应。

(四)检验样本量计算的各种假设

读者还应该检验样本量计算的各种假设。例如,他们可能相信更小的效应比预期的效应大小更有价值。因此,读者应意识到他们所偏好的效应大小相关的试验,其把握度较低。

Readers should also examine the assumptions for thesample size calculation. For example, they might believe that a smaller effect size is more worthy than the planned effect size. Therefore, the reader would be aware of the lower power of the trial relative to their preferred effect size.

十、结论

  1. 统计学的把握度是重要的概念,但不应作为伦理学的领导者。

  2. 对于那些仅仅因为主观上样本量的计算不准确即认为试验不符合伦理原则的做法,是令人质疑的。

  3. 我们赞同研究计划实现适当的把握度(adequate power),并向ISIS-2这种大规模多中心试验表示敬意,事实上,更多这样的研究应该被开展。

    ISIS-2 (Second International Study of Infarct Survival) Collaborative Group. Randomised trial of intravenous streptokinase, oral aspirin, both, or neither among 17,187 cases of suspected acute myocardial infarction: ISIS-2. Lancet 1988; 2: 349–60.

  4. 然而,如果科学领域只局限于大型试验,许多不能回答的医学问题仍将继续没有答案。

  5. 从关注样本量转变到注重方法学质量也许能使更多试验产生较少的偏倚。结果不够精确的无偏倚试验优于完全没有结果的试验。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

应用似然比优化临床诊断

一、摘要

  1. 似然比能够优化基于体征和症状的临床诊断;然而,很少被应用于患者医疗保健。
  2. 似然比是指特定试验结果的患病人群百分比除以相同试验结果的健康人群百分比。
  3. 理想状态下,异常试验结果应该在患者中更典型(高似然比),而正常试验结果应该更多地出现在健康人群中(低似然比)。
  4. 似然比接近1对决策制定没有帮助,相反,高或低的似然比能极大左右临床医师对疾病概率的评估。
  5. 各种试验均能计算似然比,不仅仅是结果为二分类变量(阳性或者阴性)的试验,多水平结果的试验也可以进行。例如,肌酸激酶或者肺通气-血流灌注显像。
  6. 结合正确的临床诊断,辅助检查的似然比可以协同改善诊断的准确性。

二、前言

无论似然比(likelihood ratios)对临床发现、实验室检査、影像学检査结果的解释多么有用,却很少被应用。大多数临床医生对似然比很不熟悉,在实践中很少应用。我们的目标是增加临床医师对似然比的理解和应用程度。

一些人认为流行病学家是通过一个\(2 \times 2\)表格来窥视整个世界。确实,如果每个人能被分为有病的或健康的,如果判断疾病的二分类试验被广泛应用,那么60亿的我们(纵使拥挤)也将恰当地分布于如图所示的表格中(图1)。遗憾的是,无论生命或者试验均不是这么简单,充满了灰色区域。似然比能够帮助临床医师驾驭这片诊断不明确的巨大区域。

似然比是指特定试验结果的患病人群百分比除以相同试验结果的健康人群百分比。似然比是对患病人群中特定试验结果(如阳性)的可能性和无病人群中相同试验结果(如阳性)可能性的比较。

A likelihood ratio is the likelihood of a given test result in a person with a disease compared with the likelihood of this result in a person without the disease.

在这里,百分率(Percentage)和可能性(Likelihood)是可以相互替换的。它的含意就非常清楚:患者比健康人更可能得到异常的试验结果,这种差异的大小具有重要的临床意义。

三、两分类结果试验的似然比

(一)阳性似然比

  1. 图1下方的\(2 \times 2\)表格显示了似然比的计算方法。在这个例子中,共15位患者,其中12人(80%)的疾病试验结果为真阳性。相反,在85位健康者中有5人(6%)出现假阳性。因此,阳性结果的似然比就是这两个百分比的比值(80%/6%),等于13。换言之,相比健康人群,患病人群得到阳性结果的可能性高出13倍。
  2. 对于一个二分类试验(阴性或阳性),这个被称为阳性似然比 (positive likelihood ratio)(缩写为LR+)。

(二)阴性似然比

阴性似然比(negative likelihood ratio)(LR-)的计算方法类似。15位患者中3人(20%)出现假阴性(false negative)结果,同时85位健康者中80人(94%)得到真阴性结果,所以LR-就是这两个百分比的比值(20%/94%),等于0.2。因此,患者获得阴性结果的可能性是健康者的1/5。

(三)计算方法总结

  1. 如果灵敏度和特异度已经明确:
    • \[LR+ = \cfrac{灵敏度}{1-特异度}\]
    • \[LR- = \cfrac{1-灵敏度}{特异度}\]
  2. 如果\(2 \times 2\)表格的原始数据可以获得:
    • \[LR+ = \cfrac{a/(a+c)}{b/(b+d)}\]
    • \[LR- = \cfrac{c/(a+c)}{d/(b+d)}\]
  3. 如果数学方程式不能应用:
  • \[LR+ = \cfrac{真阳性百分比}{假阳性百分比}\]
  • \[LR- = \cfrac{假阴性百分比}{真阴性百分比}\]

四、多分类结果试验的似然比

计算两种以上结果试验的似然比类似于二分类结果的计算。每个试验结果水平都可以简单地计算单独的似然比。在表格1中,白细胞计数提示59人为阑尾炎,145人没有此诊断。

  1. 现计算白细胞计数为\(7 \times 10^9/L\)的似然比,2%是分子(阑尾炎),21%是分母(没有阑尾炎),则似然比为\(\cfrac{0.02}{0.21}=0.1\)
  2. 同样的计算可以在不同的白细胞计数水平上进行
  3. 最高值,计算无法实施,因为分母为0
  4. 似然比的范围从0.1到无穷大,并呈现白细胞计数越大,似然比值越高的趋势。

但这些似然比改变了临床实践吗?他们使诊断疾病的可能性低到把患者从急诊室送回家,或高到有充分理由进行手术?

  1. 大多数患者(82%)的白细胞计数在\(7 \times 10^9\)\(19 \times 10^9/L\);似然比的范围从0.523.5,对患病可能性的作用较小。换言之,4/5的患者在评估阑尾炎的时候,白细胞计数对诊断没有帮助。仅极端数值可以明显影响患病可能性。
  2. 设想一名28岁男性,肺栓塞的验前概率为20%,他的肺通气-血流灌注扫描是正常的,似然比为0.1。如果我们在左侧栏定位于20%,中间栏为0.1 则右侧栏显示验后概率为2%(图2C)。

前列腺特异抗原(PSA)筛査前列腺癌提供了多项似然比(multiple likelihood ratios)的另一个例子。

在一项2620名男性受试者、年龄大于等于40岁的社区研究,调查者进行前列腺癌特异抗原的检测及应用前列腺活检作为诊断金标准。

标准临界值定在4μg/L,阳性试验的似然比为1.3(95%可信区间1.21.3),阴性试验为0.4(0.40.5):对临床帮助不大。

然而,根据PSA浓度进行拆分后,结果变得更有用(表格2)。

  • 最低值(<2μg/L)的似然比是0.3

  • 最高值(>20μg/L)的似然比是6.3

  • 这些似然比使肿瘤的验前概率发生了中等程度的改变

五、似然比的运用

临床医师经常在进行每个试验前对某个特定疾病的可能性(probability)有所估计(虽然一般无法精确地定量)。按照贝叶斯定理(Bayesian principles),验前的疾病比值 (pretest odds)乘以似然比(the likelihood ratio)得到验后的疾病比值(post-test odds)。

例如,验前比值为3/1乘以似然比2,将产生验后比值为6/1。

不像赌徒(或统计学家),大多数临床医生不会想到比值比(odds)——我们通常应用百分率(percentages)。

例如,75%的可能性(75%是/25%否)等同于比值比3/1。

虽然比值比(odds)和可能性(probabilities)之间的相互转换涉及简单算术,但一种被广泛应用的列线图解法(nomogram)(图2)统 一实现了这个步骤。

从左侧一列查出疾病的验前概率(pretest probability),将该点与中间栏的似然比相连,直线的延伸部分与右侧栏相交的点即为疾病的验后概率(post-test probability)。这个流程显示了试验结果调整了验前概率。

例如,在图1下方的表格中,阳性试验的似然比是13,阴性试验的似然比是0.2。假设疾病的验前概率为0.25,而且试验结果是阳性的。在列线图左侧找到验前概率0.25,截取似然比3,连成一直线,并延长直线至右侧栏找到验后概率大约为0.8,诊断可能性发生了重 大的改变(图2B)。这个值非常接近于贝叶斯公式计算的验后概率0.81。

列线图解法被广泛应用。但是,如果不能使用列线图,可以采用各种更巧妙的办法。

  • 例如,可以从互联网上下载计算验后概率的滑尺(a slide rule)。
  • 英国牛津的循证医学中心(The Centre for Evidence-Based Medicine in Oxford, UK)设计了一种彩色的交互式计算机列线图,能利用活动的箭头替代直线。

其他网络软件还可以计算\(2 \times 2\)表格似然比的95%可信区间。既然似然比是可能性的比值(ratios of probabilities),那么我们就可以像危险比(risk ratios)那样计算95%可信区间。可信区间(Confidence intervals)显示了结果估计的精确度。

六、似然比大小的临床意义

  1. 不同数值的似然比有不同的临床意义。临床医师凭直觉就可以理解,似然比为1.0对诊断没有帮助:患病和健康人群试验结果的百分比是相同的。
  2. 试验结果不能鉴别疾病和健康,就算是复杂的、昂贵的(可能存在风险)的试验,验前概率没有改变。
  3. 所有似然比的比值从1开始,向下延伸至0,向上至无穷大。因此,似然比越远离1,对患病可能性的作用越大。
    • 似然比从2到5使患病验后概率轻度增加
    • 从5到10中等增加
    • 大于10显著增加
    • 对于小于1的比值,似然比越小,患病可能性越低

七、一种有用的记忆法

遗憾的是,列线图解法和计算机通常在床旁不能被采用。因此,McGee提出一种记忆方法,能简化似然比的应用,并拥有较好的可操 作性。他指出验前概率在10%〜90%之间(通常情况),试验或临 床发现所致疾病概率的变化近似于一个常量。临床医师仅需记住3 个标志性的似然比:2,5,10(表格3)。这正好对应于15%的前三个 倍数:

  • 似然比为2,增加疾病可能性15%
  • 似然比为5,增加疾病可能性30%
  • 似然比为10,增加疾病可能性45%

例如,验前概率是40%,似然比为2,那么验后概率为40%+15%=55%(非常接近用公式计算的57%)。
似然比小于1,规则相反。2的倒数是0.5,5是0.2,10是0.1。似然比为0.5,那么减少验前概率15%,当似然比为0.1时将显著下降45%。

八、验前概率准确的重要性

既往史(medical history)与体格检查一直都是非常根本和重要的。事实上,对疾病概率(验前概率)的精确判定,有时候比来源于昂贵的或侵入性试验的似然比更重要。一些疾病,如阿尔茨海默病和鼻窦炎等,临床所见能产生一个相当准确的诊断。而对于其他疾病,临床医师缺乏体征和症状预测值的信息,他们必须依赖流行病学数据、教育和临床敏锐性。

例如,补充的患者疾病史使冠心病的验前概率从75%下降至小于5%,这样的改变对验前概率的影响超过一个阳性和阴性似然比为3和0.5的心脏负荷试验的影响。

虽然临床诊断未必会比辅助试验更准确,但它的精确性对后续任何试验结果的解释都将产生显著的作用。一个准确的验前概率(pretestprobability)和后续试验(subsequent testing)能很好地优化临床诊断。

九、决策阈值

只有当可能影响临床处理时,试验才被使用。如果临床医师判断的患病验前概率已经能安全地肯定或否定诊断,那么进一步的试验是没有必要的。

更多的试验应该在临床不确定的情况下才被考虑(如图3)。在试验进行前,应该明确检查阈值(Test threshold)和治疗阈值(Treatment threshold)(图3中的A和B)在连续的诊断疾病可能性(diagnostic certainty)上的位置。

  • 疾病概率低于A点可以有效地排除诊断,于是,A就是进行试验的阈值:即验前概率大于A但小于B有可能从后续试验中获益。
  • B点是治疗阈值,疾病概率高于此点应判断可以给予治疗,不应再有任何延误。

这些决策阈值(decision thresholds)(A和B)的位置应该个体化。运用列线图(图2A),临床医生可以估计多大或多小的似然比使验前概率移动到A点以下(排除诊断)或B点以上(开始治疗)。临床医师可以参考已发表的似然比,确定相应的试验结果。如果试验结果不能实现患病概率的这种移动,就不应该进行该试验。这是非常基本和重要的一点。

十、似然比的优点

既然大多数临床医师已经熟悉灵敏度和特异度,是否值得进一步努力学习如何应用似然比?似然比具有某些吸引人的特点,是传统的试验真实性(test validity)指标所没有的。

  1. 不是所有的试验都有二分类结果。当结果不仅仅是阴性或阳性时,试验真实性的方程式将无能为力。许多临床医学试验得出连续性结果(如血压)或者多个等级水平的结果(如乳腺肿块的细针穿刺活检)。将多项分类结果强行改成阳性或阴性将丢失信息。似然比使医师有能力解释和使用诊断试验的所有结果。

  2. 其次,似然比简单易行,适用范围广。相反,试验(tests)的预测值(predictive values)受疾病的患病率影响,即使再完美的试验也可能因为患病率很低而出现很差的阳性预测值。似然比不受疾病患病率的影响,其在一系列不同患病率的疾病中均可使用。预测值与人群的试验特性(test characteristics to populations)有关,而似然比可以被应用到某个特定的患者。此外,似然比与传统的真实性指标不同,需要合并\(2 \times 2\)表格的所有4格数据。

  3. 依赖灵敏度和特异度经常会夸大试验的益处。比较两种产科试验(胎儿纤连蛋白fetal fibronectin预测早产、子宫动脉多普勒波形分析预测先兆子痫preeclampsia),2/3发表的报道高估了试验的价值。应用似然比,而不仅仅是灵敏度和特异度,将可能避免这种误解。

  4. 似然比改善了临床判断。将似然比应用到诊断中将改善诊断疾病的可能性(the diagnostic probability),有时是相当明显的。当试验按序执行时,第一个试验的验后概率(the post-test odds)成为第二个试验的验前概率(the pretest odds),以此类推。

十一、似然比的局限性

  1. 似然比对验前概率的影响不是线性的。似然比100是似然比10的10倍,但并没有增加10倍的验前概率,如图2D所示。
  2. 多分类结果试验的极端试验值产生不精确的似然比。有这些并不精确的高值或低值的患者数量很少。在这些单元格中,患病人数微小的改变能产生非常不同的似然比。换言之,在最高和最低的试验值分布区,似然比的不精确性非常多见。将试验结果分布中靠近极值的连续性分类合并,可以得到较多的患者数目,从而使结果更准确,如更窄的可信区间(confidence intervals)。
  3. 相反,许多试验结果分布在中心区域。这里,似然比接近1,因此帮助小。重要的决定因素(big payoffs)来源于高或低的似然比
  4. 另一个问题就是在三级医疗单位中产生的验前概率可能无法被统一采用,因为面向的患者人群不同。

十二、似然比应用的实例

(一)以验前概率为基础进行试验的指南

  1. 当验前概率高或低时,临床医师应谨慎安排试验。此时,试验不能改变患病的概率,只会导致情况更紊乱:因为不能预测的结果(unexpected results)通常是假阳性或假阴性。

  2. 当验前概率为50%时,试验将非常有帮助。见图2,起始点在验前概率栏50%的地方比其他任何位置,其列线图验后概率的数值变化都要明显。

  3. 无论试验结果如何,患病的验前概率越高,其验后概率也越高。

    例如,高3倍的验前概率将比低值产生高出3倍以上的验后概率。

  4. LR+大于10意味着阳性试验能很好地诊断疾病。

  5. LR-小于0.1意味着阴性试验能很好地排除诊断。

  6. 当序贯进行各项试验时,第一个试验的验后概率成为下一个试验的验前概率。不同试验之间相互联系,按序进行。

(二)应用实例

临床上可以广泛应用似然比,包括:症状、体格检查、实验室检查,以及影像学和评分系统(表格4)。基于正确的疾病验前概率,辅助检查的似然比往往能在重要途径上优化临床判断。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

筛查试验的应用与误用

一、摘要

  1. 筛查试验在现代医学实践中普遍存在,但筛查的原理却被广泛误解。
  2. 筛查是在无症状人群中发现有某种疾病的高危人群。
  3. 虽然早期诊断颇具吸引力,但并不是越早越好,或在花费上是值得的。
  4. 四个指标描述了筛查试验的真实性:灵敏度、特异度、阳性预测值和阴性预测值。
  5. 对于连续性变量的试验(如血糖),灵敏度与特异度呈反比关系,其异常临界点的选值应考虑假阳性和假阴性结果的临床效应。
  6. 患病率可以影响筛查试验的效力:在患病率低的人群,即使非常好的试验,其阳性预测值仍很低。因此,对疾病患病率的了解是解释筛查试验结果的先决条件。
  7. 筛查试验经常是序贯进行的,例如梅毒和HIV-1感染。
  8. 领先时间偏倚和病程长短偏倚可能影响筛查试验的结果。
  9. 随机对照试验是唯一能避免这些偏倚的试验。
  10. 筛查能改善健康,如强烈的间接证据表明宫颈癌的死亡率下降与开展宫颈细胞学筛查项目有关。然而,不恰当的应用和解释筛查试验亦可能剥夺受试者的健康、启动创伤性的诊断试验以及浪费医疗卫生资源。

二、伦理学意义

哪些是筛查试验潜在的危害?

筛査(Screening)是一把双刃剑,有时意图是好的,但应用得可不漂亮。筛查是指在无症状人群中辨认出有某种疾病的高危人群。有时可对被筛查出来的人进行后续诊断试验,有时直接予以治疗或预防措施。找出已有临床问题的人所患的疾病称为发现病例(case finding),而筛查仅限于无症状人群。

筛査能改善健康:

  • 强的间接证据(strong indirect evidence)支持宫颈细胞学筛查有利于宫颈癌的发现
  • 在成年人中筛查高血压、乙肝病毒抗原
  • 孕妇筛查HIV-1和梅毒螺旋体(syphilis)
  • 孕12〜16周常规进行尿培养
  • 新生儿筛查苯丙氨酸(phenylalanine)

不恰当的筛查亦可危害健康人群和浪费宝贵的资源:

  • 美国开展妊娠糖尿病的产前全面筛查(一种寻找疾病的诊断)例证了对筛查本质和目的的普遍误解。

(一)筛查与其他传统临床试验的不同

  1. 通常,患者向临床医生咨询不适症状和问题,这些信息可帮助肯定或排除某种诊断。
  2. 因为患者非常痛苦,向我们寻求帮助,所以试验的风险和费用最终往往能被患者接受。
  3. 筛查的对象往往是不需要医学帮助的健康人群(他们更乐于不被打扰)。
  4. 另一方面,消费者对于筛查的需求,如骨质疏松和卵巢癌等筛査项目,可能导致昂贵的费用和并不确切的结果。因此,与筛查相关的费用、损伤和抱怨是极其重要的(虽然经常被忽视)。
  5. 筛查的医学和伦理学标准应该比诊断试验更严格。坦率地说:所有筛查的副作用都是医源性的,而且是完全可以预防的。

(二)筛查有害的方面常被忽视

  1. 可能不方便:奥沙利文O’Sullivan筛查妊娠糖尿病)
  2. 令人不愉快:肠镜(sigmoidoscopy or colonoscopy)
  3. 价格昂贵:
    • 乳腺摄片(mammography)
    • 例如,Markov模型揭示新的宫颈癌筛查试验比宫颈涂片检査更灵敏(因此,被介绍为更好),但大大增加了发现癌症患者的平均费用。可以想象,危险度最高的贫穷妇女将不能接受更高的支出,净效应将导致更多癌症的发生。
  4. 继发损害:假阳性(false positive)和真阳性(true positive)结果可能引发危险的干预措施。虽然正确诊断为患者所带来的继发损伤是可以被接受的,但被误诊的健康人也将遭受相同的危害。
    • 被诊断为高血压的钢铁工人不管是否进行治疗,都将导致缺勤的增加,和病人角色的自我认同(adoption of a sick role)。

    • 近期报道显示,在被诊断为妊娠糖尿病后的5年间,妇女会认为她们自己及其婴儿的健康状况在明显恶化。

      临床医生有什么权利来剥夺人们期望的健康?又能从中得到什么?

  5. 筛查还能导致创伤性的治疗:几十年前,氯贝丁酯(clofibrate)治疗高脂血症就是一个令人冷静思考的例子。
    • 胆固醇升高(危险因素,而不是疾病本身)的治疗不经意间导致了服药的中年男性死亡率上升了17%。仅仅在美国,这场筛查事故夺走了超过5000名男性的生命。

    因为这些不幸事件,一些筛查的总结指南提出临床医生对于筛查的选择应该更严格谨慎。

三、筛查标准

如果一个试验有条件(available)开展,它是否应该被应用?

(一)筛查的三个标准

筛查试验的可获得性(availability)并不意味着它应该被实施。

  1. 疾病(disease)
    • 疾病应具有临床重要性及清楚的定义
    • 很好地获知其患病率(prevalence)
    • 应了解自然病程
    • 存在有效的干预
  2. 政策(policy)
    • 筛査试验必须费用合理、诊断容易
    • 治疗方法必须已经能实行
    • 阳性结果的后续措施必须已普遍达成共识,并为被筛查者接受
  3. 试验(test)
    • 试验必须行之有效
    • 安全的
    • 有合理且明确定义的临界值(cut-off level)
    • 具有真实性(valid)和可靠性(reliable)
      • 真实性(validity)
        • the ability of a test to measure what it sets outto measure
        • 通常用于鉴别有病和无病
      • 可靠性(reliability)
        • 可重复性
        • 例如,浴室的磅秤比医院的(金标准)恒定重2公斤,这提供了不真实但可靠性高的结果

(二)筛查越早越好么?

  1. 虽然主观上需要早期诊断,但并不一定是越早越好。例如,在缺乏有效治疗的情况下,能从阿尔茨海默病的早期诊断中获得什么收益(以及花费多少)?
  2. Sackett及其研究小组已经提出富有实效的条目表(checklist)来帮助决定什么时候(或是否)值得付出时间、金钱和精力去寻找比一般情况更早的诊断。这些问题包括:
    • 早期诊断真的能给被筛查者带来收益,如生存或生命质量吗?
    • 临床医生能否利用另外的时间来明确诊断和处理那些症状还没有出现的被诊断的患者?
    • 那些更早期获得诊断的患者能否依从治疗方案?
    • 筛查策略能否被客观地确定其有效性(effectiveness)?
    • 试验的费用(cost)、准确性(accuracy)和可接受性(acceptability)能否被临床接受?

四、试验有效性的评估

试验是否真实?

(一)评价试验真实性的四个指标

  1. 半个多世纪以来,4个代表试验真实性(validity)的指标被广泛应用:

    • 灵敏度(sensitivity):找出患者
    • 特异度(specificity):找出健康者
    • 阳性预测值和阴性预测值(predictive values of positive and negative)
  2. 虽然在临床上很有用(比临床预感更有说服力),但基于特定假设的这些术语经常被认为是不切实际的(如所有的人群被二分为有病和健康)。

  3. 事实上,对流行病学家的某种定义就是一个透过\(2\times2\)表格观察整个世界的人。那些被测试者并不能简单且完美地适用这些名称:他们可能有病、早期患病、可能健康或其他一些不同的情况。

  4. 适用于多种试验结果(不是只有二分类结果)的似然比(Likelihood ratios),有助于临床医生完善对特定患者疾病可能性的判断。

  5. 为了简单说明,现假设已完成测试的人群被分配到一个格 与格之间相互排斥的四格表中。

    • 灵敏度有时被称为检出率(detection rate),是一个试验能发现疾病的能力。所有有病的人群在左列。因此,灵敏度是指被试验正确识别的患病人群(a)除以所有患病的人群(a+c)。
    • 特异度显示的是试验识别无病状态的能力。特异度的分子是单元格d(真阴性),除以所有的正常人群(b+d)。
  6. 虽然公共卫生政策制定者对灵敏度和特异度很感兴趣,但临床医生很少应用。换言之,无论是灵敏度还是特异度(人群测试)都是回顾性的(需要一定时间收集试验结果)。然而,临床医生不得不对受试者的结果进行解释。因此,他们需要知道的是试验的预测值predictive values(个体测试、前瞻性)。

  7. 评价预测值,需要旋转90°观察:预测值在水平(行)而不是垂直(列)上起作用。

    • 上面一行是试验结果阳性的人群,但只有单元a是患病的,所以,阳性预测值是\(\cfrac{a}{a+b}\)
    • 阳性结果的比数(odds of being affected given a positive result,OAPR)是指真阳性与假阳性的比,即\(\cfrac{a}{b}\)
      • OAPR的倡导者认为这些比数(odds)与概率(probabilities) (预测值/predictive values)相比能更好地描述试验的有效性(test effectiveness)。
    • 下面一行,在阴性结果的人群中,仅有单元格d是无病的,所以,阴性预测值是\(\cfrac{d}{c+d}\)
  8. 在临床训练中,学习(和迅速忘记)这些公式对于我们中的大多数人来说是每年例行的过程。如果阅读者理解了上述的这些定义,并能回想起\(2\times2\)表格,那么他们就能迅速明白什么时候需要这些公式。我们可以这样去记忆,疾病出现在表格的顶部,因为这是我们首先要关注的,在默认情况下,试验在表格的左侧。

(二)将四个指标简化的尝试

  1. 在过去的几年里,研究者试图简化这四个试验真实性(test validity)的指标,将它们浓缩为一个独立的名词。然而,没有人能充分地描述灵敏度(sensitivity)和特异度(specificity)之间的重要权衡(trade-offs)。
  2. 一个例子是诊断的准确度(diagnostic accuracy),即正确结果的比值
    • 被正确定义疾病状态的总人数除以所有参加试验的总人数
    • \(\cfrac{(a+d)}{(a+b+c+d)}\)
    • 单元格b和c在系统中是干扰(noise)
  3. 另一个早期尝试是尤登指数(Youden’s J)
    • 它简单地将阳性预测值(predictive value positive)加阴性预测值(predictive value negative)减1
    • 指数范围从0(掷币决定,没有预测价值)到1(阳性试验和阴性试验的预测值都完美)

五、灵敏度和特异度之间的权衡(Trade-offs)

异常临界值(cut-off for abnormal)应设定在哪里?

  1. 理想的试验能完美地区分有病和无病,两组人群的试验结果分布(distributions of test results for the two groups)没有重叠。但是基于人类生物学,更常见的情况是有病和无病的试验结果相互重叠,有时甚至很宽。
  2. 当正常和异常的临界值被确定后就决定了灵敏度和特异度。
  3. 任何连续性变量的测定(如血压、眼内压、血糖),试验的灵敏度和特异度呈负相关(inversely related)。
  4. 如图所示,若血糖异常的临界值如果设在X点将产生完美的灵敏度,这个较低的临界值将识别出所有的糖尿病患者。然而其代价就是试验的特异度很差:那些代表健康分布的粉红色和紫色区域中的人群同样被不正确地认为有异常的血糖值。血糖异常的临界值如果设在较高的Z点将产生相反的结果:所有健康者都能被准确定义(完美的特异度),但代价是将丢失相当一部分疾病人群(糖尿病分布的紫色和蓝色区域)。作为妥协,可以将临界值设在Y点,误诊一些正常人和糖尿病患者。
  5. 临界值的设定应该基于试验的临床意义,受试者工作曲线对决定是有帮助的。
    • 新生儿的苯丙酮尿症(phenylketonuria)的筛查保证了灵敏度而不是特异度,错过一个病例的代价很高,并且存在有效治疗。缺点是相当一部分是假阳性,导致了痛苦焦虑和进一步检查。
    • 乳腺癌的筛査更偏向特异度,因为阳性结果的人群必须进行价格较高、有创伤性的活检来进一步明确。

六、患病率(Prevalence)和预测值(Predictive values)

试验结果能被相信吗?

  1. 筛查的一个极难被理解的特征是疾病的患病率对预测值的潜在作用。临床医师必须知道待测人群中大概的患病率。否则,不可能获得合理的解释。

  2. 假设,确定一种新的PCR法诊断来衣原体(chlamydia),灵敏度为0.98,特异度为0.97(非常好的检测方法)。图7-3的左侧表格显示了医生在性传播疾病诊所中应用该项试验的数据,那里沙眼衣原体的患病率为30%。在这个高患病率的设定里,阳性结果的预测值非常高,为93%(即93%阳性结果的受试者是真实的感染患者)。

  3. 因为对新的试验方法印象深刻,现在该医生将此方法在自己的郊区私人诊所中应用。(图7-3的右侧表格)。这里衣原体感染的患病率仅为3%,现在同样完美的试验其阳性预测值仅是50%。换句话说,投掷硬币可以获得同样的阳性预测值(且比寻找一些DNA更便宜和简便)。

  4. 上述信息很重要,但没有被广泛理解的是:当在低患病率的情况下应用时,即使是非常完美的试验同样出现很差的阳性预测值。相反,阴性预测值则是真实的,从图7-3来看近于完美。虽然诊断出性传播疾病有非常重要的健康意义,但被错误地贴上感染者标签的人却可能出现婚姻破裂和生活危机。

    • 特异度是检出健康人群的,如果人口数量非常大时,即使是再高的特异度(如99%),剩下1%(也就是误报人数,本身没有疾病,却报告了阳性的检测值)如果乘以较大的人口基数的话,这个数值也会很大。
    • 与此同时,如果发病率非常低,本身真实的患者就少,如果特异度再高(如99%),特异度乘以真实的患者,这个数值也会很小。

七、联合试验/Tests in combination

需要进行后续试验(follow-up test)吗?

(一)序贯试验(in sequence)

  1. 临床医生较少单一地应用各种试验。很少有试验具有较高的灵敏度和特异度。所以常用的策略是序贯地进行一些试验。
  2. 以梅毒为例,一个灵敏的(但非特异的)试验用于最初的筛查,结果阳性者将进行下一个更特异地诊断梅毒螺旋体的试验。只有那些两项试验均阳性的受试者才能被诊断。
  3. 这样的策略与单个试验相比增加了特异度,并限制性地应用更为昂贵的梅毒螺旋体的检测。诊断HIV-1也有同样类似的二步法。

(二)平行试验/tandem (parallel or simultaneous testing)

  1. 两种不同的试验可能都没有好的灵敏度,但其中一种能较好地捕捉疾病的早期状态,相反,另一种方法能更好地发现该病的晚期阶段。
  2. 任何一个试验的阳性结果都预示了受试者需要进一步的诊断评估
  3. 这种流程比其中任何一个试验单独应用时的灵敏度更高。

八、优势或偏倚?

一种筛查项目真的能够改善健康状况吗?

(一)领先时间偏倚(Lead-time bias)

指与筛查相关的虚假的寿命延长。例如,假设乳房钼靶筛査能比通常情况早2年诊断肿瘤,但筛查本身并不能延长寿命。结果,筛查发现的乳腺癌妇女比常规诊断的患者平均多生存2年。生存的延长非常明显却不真实:这个假设的筛査使妇女提前两年知道自己有肿瘤,但是并没有延长生存。这是典型的零点移动(zero-time shift)

(二)病程长短偏倚(Length bias)

生存的延长是真实的,但是是间接的。假设社区乳房钼靶筛査是10年进行一次。经筛查发现的乳腺癌妇女从肿瘤发现到死亡比一般方式发现的要多活5年。筛查与延长寿命的关系是显而易见的。

但是,在下面这个假设的例子中,生存的延长体现的是肿瘤生长本身的内在变异性,而不是筛查的作用。一个无痛且生长缓慢的肿瘤妇女可能获得足够的生存时间来进行10年一次的筛查。相反,一个进展迅速的肿瘤患者可能无法存活到筛查的时候。

(三)避免这些偏倚的唯一方法

避免这些偏倚的唯一方法是进行随机对照试验,然后通过比较不同年龄段筛查组和不接受筛查组的死亡率。此外,必须很好地完成这些试验。对于乳房钼靶检查这个花费甚巨的大型筛查项目,一些已发表的高质量研究对其效用提出了严肃的质疑。

九、结论

  1. 筛查是改善还是损害健康,取决于它的应用。
  2. 不同于一般的诊断试验,筛查试验被用于看上去健康的人群,这就引起了独特的伦理道德的思考。
  3. 灵敏度和特异度趋向于负相关。
  4. 异常临界值的选择应提示不正确的检查结果可能带来的后果。
  5. 即使是灵敏度和特异度非常高的试验,如果应用到患病率低的人群,其阳性预测值仍很差。
  6. 领先时间偏倚和病程长短偏倚夸大了筛查表面上的益处,这低估了在筛查开展之前,必须有更加严密的随机对照试验对其进行评估的必要性。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

队列研究:迈向结局

一、摘要

  1. 队列研究将特定人群分两组或多组,从暴露到结局的方向进行研究
  2. 该研究方法可以以现在为观察起点随访至将来某个时间点(前瞻性队列研究)。也可在过去的一个时间段里面确定一个队列,观察到现在为止(回顾性队列研究)。
  3. 队列研究是明确疾病发病率及其自然史的最佳方法,还可用于研究由单一暴露因素导致的多种研究结局。但是该研究方法不适于检测罕见病及潜伏期长的疾病。
  4. 队列研究对暴露和结局应有明确定义:该定义应尽可能客观。
  5. 对照组(非暴露组)除了无暴露因素之外,其他各主要方面均应与暴露组相似。而这种相似程度在观察性研究中几乎无法达到,因此研究人员需要检测并控制各种混杂因素。
  6. 处理失访问题是研究中的一大挑战,因为差异性失访会带来偏倚。
  7. 在队列研究的框架下面还有多种不同的研究方法,如前后对照研究法和巢式病例对照研究法(研究限于队列内)。
  8. 队列研究的优势在于计算发病率,相对危险度和95%可信区间(CI),这种方式较之仅给出P值,能更好地表达研究结果。

二、队列研究的分类

  1. 队列(cohort)这个词起源于军事,而非医学。
    • 一个队列指的是罗马军队中一个步兵大队,由300-600人组成。

    • 10个队列组成一个军团(legion)。

  2. 该词的词源告诉我们一个很有用的概念:队列研究(cohort study)由一群或一组人群组成,在时间方向上从暴露迈向结局。
  3. 队列研究的同义词:
    • 发病率研究(incidence study)
    • 纵断面研究(longitudinal study)
    • 前瞻性研究(forward-looking study/perspective study)
    • 回顾性研究(prospective study)
    • 随访研究(follow-up study)
    • 并行性研究(concurrent study)
  4. 队列研究是随访两组或多组人群从暴露到出现研究结局。
    • 最简单的队列研究是将暴露于某种因素的暴露组和非暴露组进行对照。如果暴露组出现研究结局的发生率高于或者低于非暴露组,则可据此认为该因素与该结局之间存在联系。
  5. 所有队列研究方法的最主要特点就是研究人员沿着从暴露到结局的时间轴来随访研究对象。

(一)前瞻性队列研究(perspective/concurrent cohort study)

  1. 以现在为观察起点。
  2. 例如,对于辅助生殖技术引起的多胞胎生育的流行病学研究。研究人员随访一组通过辅助生殖技术受孕的孕妇和一组通过自然受孕的孕妇,比较两组多胞胎的发生率。

(二)回顾性队列研究

  1. 从过去的某个时间点开始选定队列。
  2. 例如,研究人员也可以利用现有的病历档案,上溯几年将孕妇分为暴露组和非暴露组。然后,追踪病历档案确定其生育的情况(研究结局)。

(三)双向性队列研究(ambidirectional cohort study)

  1. 顾名思义,资料收集是双向的。该方法可用于暴露因素作用后可能会既有短期效应又有长期效应的研究。
  2. 例如,辅助生殖技术也许与多胞胎生育有关,也可能与多年后卵巢癌有联系。因此,研究人员会追溯研究对象的多胞胎生育的病历档案,也会随访这些妇女今后卵巢癌的发生情况。

三、队列研究的优点

是获得疾病发病率(incidence)及了解其自然史(natural history)的最佳方法

  1. 通常,假定的病因与结局发生之间的时间先后顺序明确:研究开始时,无论是暴露组还是非暴露组均未出现研究结局。而横断面研究和病例对照研究对于像先有鸡还是先有蛋这类问题却常常无能为力。
  2. 队列研究法可用于单一暴露因素下可能发生多种结局的研究。典型的案例就是研究吸烟(暴露)与中风、肺气肿、口腔癌、心脏病(研究结局)的关系。
    • 但该“优点”常被滥用。例如,在暴露和许多结局的关联上都做过统计学检验,但是仅仅报告具有统计学意义的关联,因而引起误导。
    • 合理的做法是,研究人员应该在研究计划中事先就明确研究的主要和次要联系,或称之为“假设确认(hypothesis confirmation)”。即使研究人员在实验中可以去检验暴露和其他结局之间的联系,或称之为“假设产生(hypothesis generation)”,他们也应该在报告中列出所有的检验结果,而非仅仅报告具有统计学意义的发现,这样读者就能够正确看待这些结果了。
  3. 队列研究同样也适用于罕见暴露的研究:研究人员可以在特定的工作场所招募暴露在罕见因素(例如电离辐射或化学药品)下的工作人群。医院或工厂可以提供大量暴露于特定研究因素下的个体,在普通人群中暴露在这些特定因素的人非常罕见。暴露与否并非为研究人员所定,所以不涉及伦理的问题。
  4. 队列研究还可以减少生存者偏倚(survivor bias)。生存者偏倚常常让快速致命疾病的研究变得困难。
    • 例如分析铲雪和心肌梗死之间的联系,如果采用基于医院的病例对照研究的方法,就会遗漏所有死于途中的心肌梗死患者。而队列研究则是一种偏倚较小(但工作量较大)的方法:按是否铲雪将人群分为两组,比较其心肌梗死的发生率。
  5. 队列研究可以计算:
    • 发病率(incidence rates)
    • 相对危险度(relative risks)
    • 可信区间(confidence intervals)
  6. 队列研究的其他结局指标还包括:
    • 寿命表率(lifetable rates)
    • 生存曲线(survival curves)
    • 风险比(hazard ratios,HR)
    • 而病例对照研究无法直接计算发病率,仅当发病率很低的情况下,比值比(odds ratios,OR)很接近相对危险度。

四、队列研究的缺点

  1. 队列研究中选择偏倚几乎是与生倶来的。例如,如果进行慢跑锻炼和心血管疾病的关系的队列研究,应当考虑到会进行慢跑锻炼的人在其他重要因素(如饮食和吸烟习惯等)上也会与不进行慢跑锻炼的人不一样。理论上来讲,两组之间除了所研究的暴露因素(慢跑锻炼)之外,其他重要方面都应该相似,但实际上这种理想状态几乎不会发生。
  2. 队列研究也不适用于罕见疾病(如硬皮病)或潜伏期很长的疾病(如肿瘤)。不过几个大型的(当然也是昂贵的)队列研究为我们认识一些少见病的特点作出了突出的贡献。这些研究包括:
    • 皇家全科医师学院(Royal College of General Practitioners)的口服避孕药研究
    • Framingham心血管疾病研究
    • 护士健康研究/the Nurses Health Study
    • 英国医生研究/the British Physicians’Study
  3. 失访是很棘手的问题,即使只是失访一个月。暴露组和非暴露组差异性失访可使得研究出现偏倚。
  4. 随着时间延续,研究对象的暴露状态可能发生改变。
    • 例如,使用口服避孕药的妇女可能转为使用宫内避孕器具,或者相反。
    • 研究者可能需要分区(Partitioning)避免暴露因素的模糊化/或有时称之为“污染(contamination)”。

五、队列研究中时间-事件结局关系(time-to-event)的报告

(一)生存分析(Survival analysis)

  1. 生存分析适用于当研究对象随访时间长短不一时,或者当研究对象在不同时间点进入研究时。
  2. 相对于把结局做简单的二分类变量处理,Kaplan-Meier method能更好地表达在时间维度上各个时间段结局发生的危险度。
    • 该方法可以确定任意时间点上结局发生的可能性(概率\(P\))。
    • 分析结果以阶梯函数的曲线图表示(每发生一个结局,曲线进入下一个阶梯)。
    • 互补的镜像阶梯图,即Kaplan-Meier生存曲线(Kaplan-Meier curve),则表现每一个时间点上不发生结局的概率(\(1-P\))。
    • 对数秩检验方法(log-rank test)可以进行生存曲线的组间比较。

(二)比例风险模型(Proportional hazard model)

  1. 处理不同随访时间的另一种方法是Cox比例风险模型分析法(Cox proportional hazard model)。
  2. 这是一种引入多变量的分析方法,其因变量是时间-事件结局(如疾病);而多元logistic回归的因变量是“是/否”类型的二分类变量。
  3. 该模型得到的回归系数可用于计算校正模型中其他变量后出现结局的风险比(risk ratio,hazard ratio)。这里的风险比(及其95% 可信区间)的意义与二分类结局变量的相对危险度(relative risk)相仿。

六、队列研究的要点

(一)谁是潜在患病者?

  1. 队列研究的所有研究对象(无论是暴露或是非暴露组)均应是潜在的患病者。
  2. 举例来说,进行过输卵管结扎术的妇女几乎不会罹患输卵管炎,因此如果要开展盆腔炎的队列研究就不应将其列入研究对象之中。

(二)谁是暴露人群?

  1. 队列研究需要在研究之初即明确的、无歧义地确定暴露因素的定义
  2. 有时候,其定义不仅仅是要区分“有或无”暴露,还要将暴露进行定量。如最低暴露剂量可能定义为每天14支或低于14支香烟,或者3~6个月的口服避孕药。这样来定义暴露的结果就是:研究的组别可能会超过2个组(如非吸烟组,轻度吸烟组和重度吸烟组)。

(三)谁是合适的对照?

  1. 最关键的一点就是除了不在暴露因素之下,对照组(非暴露组)在各个重要的特征上均应和暴露组相似。如果这样的话,非暴露组可以提供所研究结局的基础发生率的信息(the background rate of the outcome in the community)。
  2. 非暴露组可以是“内源性”的(相同的时间和地点的人群,如同一个病房),也可以是“外源性”的。
  3. 内源性者更为可取。在一个特定的人群中,个体会自动(或者因为医学干预)按一定暴露因素(如吸烟、职业、避孕等)分类聚集。
    • 例如,在一个队列研究中纳入了138个HIV-1相关性Kaposi肉瘤的患者,并将其分为口腔病灶和皮肤病灶2组。出现口腔病灶(暴露因素)的预后更差,其中位生存时间(结局变量)仅为另一组的1/3。
  4. 如果没有合适的内对照,也可寻找外对照,有时候称为“双重队列研究(doublecohort study)”。对于职业性暴露的研究,在同一个工厂中要找到足够的非暴露对照有时候很困难。这时候可以选择同一社区类似的工厂工人作为对照。这样做的前提是假设其他工厂工人和暴露组工人在所研究结局上的基础危险度是相同的,但这个假设往往不一定成立。
  5. 更逊于前两种对照方法的是使用普通人群资料(population norms)作为对照,例如疾病特异性的病死率(disease-specific mortality rates)。
    • 研究者可以比较工厂工人和同年龄同性别普通人群的肺癌病死率。
    • 不可避免的“健康工作者效应”(healthy worker effect)会导致这样的比较出现偏倚:工作者通常要比不工作者(或者不能工作)更健康。而且,工作带来的福利待遇和经济收入可能会进一步增加偏倚。

(四)结局评定是否公平公正?

  1. 结局的定义也必须事先明确:其定义必须清楚、特异,并且可定量。
  2. 为避免信息偏倚,在暴露组和非暴露组中评定结局必须公正。如果不能很好地、客观地定义结局变量,研究结果也无从解释。
    • 这不单单是指一些以主观感觉为主的综合征如海湾战争综合征、慢性疲劳综合征,以及经前综合征。
    • 对于更多的普通疾病如子宫内膜炎等也是一个挑战。how tender must a uterus be?
  3. 对于队列研究中的主观性结局(如疼痛、皮肤红斑等),评定者应该不知道研究对象暴露与否,即盲法(blinding),这非常重要。
  4. 而对于客观性结局(如发热、死亡等),盲法则相对不是那么重要。
  5. 关于结局的信息可以有多种来源。
    • 病死率的研究常采用死亡证明(death certificate)等。
    • 对于非死亡的结局,信息来源可以是医院病历,保险记录,实验室检查结果,疾病登记系统,出院记录,以及体检和测量资料等等。
    • 最佳的做法是,评定结局的研究人员应该不知道研究对象的暴露状态。如果诊断不是那么明确,可以加上一些修饰词,如确诊,可能或可疑。

七、随访

失访是否最小化?

(一)失访的影响

  1. 一般来讲,失访(loss to follow-up)会削弱研究的把握度(power)和准确性(precision),其中差异性失访尤为甚者。
  2. 中途退出(Bail-outs)并非随机事件。如果研究对象中途退出的原因与暴露和结局皆有关系,这就会导致偏倚。
    • 例如一种新的抗生素可能导致很差的结果,因此研究对象无法完成问卷或者回来复查。他们从队列中的退出失访会让研究结果看上去显得这个新抗生素比其实际效果要好。

(二)处理失访

  1. 处理失访的最好办法是避免失访。例如,将参加者限制为那些可能会完成随访的人。
  2. 另外,一些方法也常用于保证随访的进行。
    • 在研究开始时,可以取得几个不与研究对象住在一起的家庭成员或者朋友的姓名,或者知道他的家庭医生。如果研究对象搬家了,这些联系人员可能会知道他的新址。
    • 机动车登记资料也会有些帮助。
    • 国家死亡统计登记系统,如美国国家死亡人口索引(the National Death Index in the USA)等也可帮助记录随访资料。
    • 研究对象因为参加研究可能会损失工作时间,可以给予一定的经济补偿。
  3. 努力地追踪随访研究对象是一项很累的工作,可以单独雇人从事这个任务。

八、队列研究报告所需展示的要素

  1. 有多少选择偏倚?
    • 是否只包括潜在的患病者?
    • 暴露的定义是否清楚、特异,并且可以定量?
    • 除了暴露状态之外,暴露组和非暴露组在其余各主要方面是否都相似?
  2. 采用了哪些方法去减少信息偏倚?
    • 结局的定义是否清楚、特异,并且可以定量?
    • 暴露组和非暴露组是否用相同的方法来评定结局?
    • 评定结局是否采用盲法?
  3. 两组的随访是否完整?
    • 用什么方法来减少失访?
    • 两组失访情况是否相仿?
  4. 是否查找并在数据分析中校正潜在的混杂因素?
    • 研究者是否考虑并收集潜在混杂因素的信息?
    • 采用什么方法来评估和校正混杂因素?

研究人员首要的挑战就是让编辑(然后是读者)相信:暴露组和非暴露组除了在暴露状态上这一点之外,其余各主要方面都确实是非常相似。因此,研究报告的第一个表常常应该提供暴露组和非暴露组的基本人口学和其他预后因素资料,以及其假设检验(hypothesis testing)来显示所观察到的差异有多大的可能性是巧合所致。

对于二分类的结果变量(如健康或患病),研究者应该提供一定的原始数据,便于读者自己确认结果。对于累积发病率(cumulativeincidence),研究者应该计算在研究期间出现结局的研究对象所占的比例。发病率的分母以单位时间来表示,还需要提供相对危险度和可信区间。P不能取代区间估计(即相对危险度和可信区间),只能用做补充信息。

九、特殊的队列研究方法

(一)前后对照(时间续贯)研究[before-after(time series) studies]

  1. 研究者测量和比较受试者干预(通常是用药)前后的检测指标。
  2. 这种做法存在一些问题:
    • 首先,忽视了“趋均数回归效应”(regression to the mean)。如果在第一次检测时得到一个特别大的测量值,例如有一个较高的实验检测值,那么无论治疗与否(或者治疗是否有效),在随访的时候多数会得到较小的均值。
    • 其次,客观环境的变化可能会对检测产生影响,例如季节变化和肺炎发作的频率有关。
    • 再次,如果在第一个阶段给药,则在进行第二阶段观察前还应空出一个洗脱期(washout periods)以消除药物延滞效应(carryover effect)。

(二)巢式病例对照研究/Nested case-control studies

为何研究者要在队列研究过程中挖掘出一个病例对照研究呢?因为有些暴露因素或者预测因子检测费用非常昂贵,例如有些复杂的血液标本检测。如果队列中每一个人都进行检测就不够经济。比较经济而明智的做法是开展一个能产生足够病例的队列研究。所有受试者入组时采集一份血液标本,血清冻存至研究结束。在研究中出现所期望结局的所有研究对象成为巢式病例对照研究的病例。研究者再在未出现结局的受试者中随机选取对照。接下来,研究者只需要检测病例和对照的血清标本,而非队列中所有暴露和非暴露的受试者。这样,实验室检测费用会大大减少,而同时保证暴露因素(如阳性的实验室检测结果)也是在出现结局之前即存在。通常,选取对照时在一些重要因素上(如年龄和性别)也会做配对。

十、结论

  1. 队列研究在医学研究中十分常见。和其他研究设计一样,这种方法也是优缺点并存。
  2. 读者应该弄清楚研究者报告中是否提供了关于暴露和结局的清楚、特异和可定量的定义。
  3. 非暴露组和暴露组在各主要特征上应该相似
  4. 结局的评定应该尽可能客观,如果有可能的话,采用盲法。
  5. 对于二分类的结局变量,研究者不但应该提供率、相对危险度,还应该给出可信区间,这样比仅仅给出P值提供了更多的信息。
  6. 报告时还应该分析和描述偏倚可能对结果和结论产生的作用。
  7. 研究者还应该测量和控制潜在混杂因素,这一点非常重要。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

病例对照研究:反方向的研究

David L Sackett:he would trust only six people in the world to do a proper case-control study.(世界上他相信只有6个人能做好合适的病例对照研究)

David L Sackett教授是循证医学创始人之一

一、摘要

  1. 在众多研究方法中,流行病学家从病例对照的研究设计中获益最多。病例对照研究与其他研究设计相比,耗用的时间、金钱和精力都明显较少,但同样能产生重要的科学发现。这条“捷径”吸引了许多刚刚入行的流行病学家。
  2. 的确,在分析性流行病学研究中,研究者采用病例对照研究的次数要比其他研究都多。不幸的是,病例对照研究比其他类型的研究更容易产生偏倚。
  3. 病例对照研究容易做,却也容易做错。以下5点可作为开展、阅读和评估病例对照研究的指南。
    • 首先,研究者必须清楚无误地定义病例的诊断标准和入选标准。
    • 其次,对照组必须与病例组来源于同一人群,而且选择的对照应该独立于所研究的暴露因素。
    • 再次,研究中的数据采集者应该不知道研究对象是否为病例;如果这一点做不到,最起码,他们不应该知道研究的主要假设。
    • 第四,应该认真训练数据采集者,使之能用同一种方法从病例和对照中搜集暴露状态的信息;他们应该采用一些记忆辅助物以同等地帮助病例和对照回忆。
    • 最后一点,无论是在研究设计之初还是在数据分析阶段,研究者均应考虑到混杂因素。
  4. 在所有的这些细节上的认真审慎会让研究结果更为可靠,也使得读者确信研究者的发现和结论。

二、基本的病例对照研究设计

  1. 这种研究设计是往回看的,因此这会困扰不少研究者和读者。例如在队列研究中,研究是按照暴露与否来分组的。而在病例对照研究中,研究则是按照结局来分组的。因此,如果研究吸烟和肺癌的关系,肺癌患者作为病例组,无肺癌者则作为对照。研究者回顾每一个研究对象的暴露状态(吸烟史)。因此该设计的性质是回顾性的。研究者比较病例组和对照组吸烟的频率,测定其联系强度(measure of association)。

  2. 和队列研究不一样,病例对照研究不能计算发病率(incidence rates),而是根据病例组和对照组中具有暴露因素的个体的比例来计算比值比(odds ratio)。当目标人群中某一特定结局的发生率较低时(通常暴露组和非暴露都低于5%即可),病例对照研究得到的OR值非常接近相对危险度RR值。

三、病例对照研究的优缺点

  1. 流行病学家常常夸病例对照研究是省时、省钱、省力的最有效的研究设计。在发病率很低的时候的确如此,因为如果采用队列研究,研究者需要随访很多人才能得到一个会出现研究结局的受试者。同样,如果疾病具有很长的潜伏期(如癌症),开展一个队列研究需要随访很多年才能等到研究结局的出现,而病例对照研究就显得很有效率了。
  2. 不过,有时候队列研究也会比病例对照研究更有效率。比如当人群暴露的水平很低时,病例对照研究的效率马上下降。研究者需要大量的病例和对照来找到一个具有暴露因素的人。例如在非洲的一些地方研究口服避孕药和HIV-1传播的关系,如果采用病例对照研究就不实际,因为该处使用口服避孕药的人几乎没有。经验法则是,如果研究结局的发病率高于暴露因素的存在水平,则队列研究会更有效率(the incidence of outcome is higher than the prevalence of exposure)。

四、选择病例和对照组

(一)病例组

  1. 理论上来说,人群中所有的病例都可以入选为病例对照研究中的病例组。但实际情况下常常只有一部分作为样本用于研究。
  2. 因此,研究者应该说明这个样本是如何选择的,提供关于研究结局的清楚的定义(如临床症状,实验室检查结果和诊断方法的选择)。
  3. 研究者也需要详细说明病例组的入选标准,如年龄范围,病例来源(诊所、医院、人群)等
  4. 病例最好是选择新发病患者[incident (new)],而不是包括新老病人在内的所有患病者[prevalent (both old and new) cases]:因为诊断方法和模式会随时间而变化,因而新诊断的病人之间的一致性要比不同时期所诊断的病人来得好。

(二)对照组

  1. 对照组提供的是病例组的基础暴露水平预期值(the background proportion of exposure expected in the case group)。

  2. 因此,对照组应该是没有疾病(所研究的结局)而又具有很好的代表性:这里的代表性是指任何对照组的个体如果他患上这种疾病,他完全有可能入选病例组。简单来说,对照组应该代表可能会发展为病例的人群。

  3. 对照的选择应该独立于所研究的暴露因素。这是做好这个研究设计的精妙之处,它左右着研究质量的好坏。当研究者考虑去选择各种潜在的对照组时,他们必须想到所有可能会出现的潜在偏倚,这一步是流行病学中最为艰难的一个任务。

  4. 对照选择不佳导致偏倚的例子。

    病例 对照选择 无代表性 选择偏倚
    住院的大肠癌病人 因关节炎住院的病人 对照暴露于NSAIDs的概率很高 将错误地低估效应数值(OR)
    住院的大肠癌病人 因消化道溃疡住院的病人 对照暴露于NSAIDs的概率很低 将错误地高估效应数值(OR)

    有人采用病例对照的方法来研究非甾体类抗炎药(NSAIDs)是否能预防大肠癌。他们比较住院病人中大肠癌和非大肠癌患者之前NSAIDs的使用情况。如果对照组是来自于风湿科,研究就会出现偏倚,因为关节炎病人比普通人群中可能会出现大肠癌的那部分人群更经常使用NSAIDs类药物。对照组中NSAIDs的高频率使用会降低效应数值(OR)。而如果对照是来自于消化科,因为消化道溃疡病人往往从医生那里已经知道要避免使用 非甾体类抗炎药,所以这个对照组NSAIDs使用频率非常低,故而会出现OR假性增高。换句话说,如果研究者没有独立于暴露因素之外来选择对照组,结果可能会出现两个方向上的偏倚。

  5. 为了减少选择偏倚,研究者可以在选择对照的过程中尽量减少一些主观臆断。如果病例组是来源于某个地区的所有病患,那么对照组应该是从相同地区普通人群中随机选取。

    • 在一个研究乳腺癌和口服避孕药的病例对照研究中即采取了这个做法。所有20〜54岁,生活在美国8个区域中的新诊断为乳腺癌的女性组成了病例组;
    • 而相同年龄,相同区域,随机电话号码拨号法(random-digit dialling)选择的女性则构成了对照组。虽然这提供了一个非常好的模板案例,但是这种实验设计并不是经常可行的。
  6. 阅读病例对照研究报告时,在没有核对“方法”部分描述的对照组是否合适前,不应该接受其研究的结果。

    • 如果研究者对于对照组的选取语焉不详,则其结果非常可疑。
    • 着重要看研究者提供的关于对照组的代表性,以及选取对照组是否独立于所研究的暴露因素。这需要花费时间和力气,但这是病例对照研究的关键所在。

五、暴露因素的测量

(一)难点

  1. 受试者中无论是病例还是对照,都有可能记不清楚以前的暴露情况,尤其是很久以前发生的暴露。而且与对照相比,病例往往会对一些被认为可能与结局有关的暴露因素记忆更为深刻。这种回忆上的差异为回忆偏倚(recall bias),即是一种信息偏倚(information bias) 。
  2. 瑞典有一个研究,研究者检验人工流产和日后发生乳腺癌之间的潜在联系。他们利用面对面交流和全国病史记录来收集病例和对照的暴露史(既往流产情况)。与明确的病史记载相比,在对照组中面对面交流时更多人不承认她们有过流产史。而病例组中无此情况。病例组和对照组之间关于暴露的不同回忆导致结果出现偏倚。

(二)解决方法

  1. 数据收集时产生的偏倚会带来更多的麻烦。如果数据收集者知道研究对象中谁是病例、谁是对照,他们可能在收集信息时出现不均衡,同样导致潜在的信息偏倚。
    • 对于病例,数据收集者可能会去从研究对象那里发掘更多的关于暴露的信息;
    • 而对于对照,则不会这么卖力。如果有可能,数据收集者(如面对面交流者等)应该不知道研究对象是病例还是对照。
    • 如果盲法不能施行,他们最起码应该不清楚该研究的假设。
  2. 研究者还应该培训数据收集者以相同的态度和方法去获取病例和对照的信息。
  3. 为了减少信息偏倚,仅仅依靠从病史等资料中获取暴露的信息是不够的,因为很多情况下这些记录要么没有,要么不完全,不足以在数据分析中校正混杂因素。
  4. 病例对照研究的研究者必须随时考虑到研究中潜在的信息偏倚。在实验设计之初即应该考虑如何去解决这个问题,并在最后的研究报告中说明是如何去避免这种偏倚的。
    • 记忆辅助物,如照片、日记、日历及日程表等都可以帮助研究对象回忆其暴露情况。
    • 例如在口服避孕药的病例对照研究中,研究者用上了一个相册,里面有过去几十年市场上的每一种口服避孕药的彩色照片,还提供了一个空白的日历册来帮助研究对象回忆一些主要事件和避孕药的使用情况。这些彩照同时促使病例和对照回忆既往的暴露史,这样可以减少回忆偏倚(recall bias)。如果报道病例对照研究时没有很好地提及这些记忆辅助物,读者则会对其研究不太确信。

六、混杂因素的控制

  1. 病例对照研究也要考虑混杂因素。这种偏倚可以在实验设计之时采取限制或者配对的方法来处理,但通常情况下研究者倾向于在数据处理阶段采用类似Logistic回归或者Mantel-Haenszel分层等分析方法来解决。
  2. 如果是后者(即在数据处理阶段控制混杂因素),研究者应该事先做好计划,搜集那些潜在混杂因素变量的数据。不论使用什么分析方法研究者都不能校正无数据的变量。
  3. 如果潜在混杂因素出现测量误差,不管怎么校正都会导致残存混杂。

七、结论

  1. 设计良好、执行谨慎的病例对照研究能产生有用而可信的结果。
  2. 不过,研究者必须始终特别去注意对照组的选择和暴露信息的获取这两方面。
  3. 同样,读者记住这两个要点有助于他们从这类研究报道中去评价研究的长处和短处。
  4. 研究者应准确而全面地记录其研究方法增强其研究的可信度。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

与什么做比较?病例对照研究中对照的选择

一、摘要

  1. 设置对照(比较)组是研究的一个有力工具。
  2. 在病例对照研究中,设立对照可以估计目标人群中的基础暴露频率。
  3. 对照可来自于已知或是未知的人群。
  4. 已知人群是在一段时间内的一个明确群体,如一艘游艇上的乘客。当研究人群已知时,可以从这个人群中抽取一个样本作为对照。如果没有这个人群的花名册,随机电话号码拨号法可用于样本抽取。
  5. 不过有时候这个研究人群是未知的,例如被送到急诊室的机动车事故受伤者,其中有的人可能是从很远的地方送过来的。此时,医院对照,邻居对照,朋友、伙伴或者亲戚对照都可应用。
  6. 一般来讲,一个选择得很好的对照组比两个或更多对照还要好。
  7. 如果病例较少,可以增加对照数以发现两组间的重要差别。
  8. 尽管没有绝对理想的对照组,读者还是要仔细想想对照的代表性如何。对照选择不好, 不仅仅会带来错误结果和结论,还可能给医学带来害处。

二、对照的目的

  1. 病例对照研究中的对照可以提示无目标疾病人群中的基础暴露率(background frequency of an exposure)

  2. 对照未必是健康人,有时候选取一些患有其他疾病的病人作为对照更为合理。只有健康者作为对照可能会得到不正确的结果(偏倚)。当然,和健康者一样,病人也可能会有不同的情况出现。

  3. 非常关键的一点就是:病例对照研究中的对照必须代表那些可能会出现所研究疾病的人群。换而言之,如果暴露和疾病是无关的,那么对照应该和病例具有同等的暴露风险。

    病例对照研究中对照的特点
    未出现所研究之结局
    能代表可能出现所研究结局的人群
    选择时应独立于所研究的暴露因素
  4. 如果病例中暴露因素的频率比对照更高,这就是正性的联系(例如宫颈癌患者具有多性伴的情况比没有宫颈癌的对照人群更为常见)。

  5. 如果病例中暴露因素的频率比对照更低,这就是所谓的保护性联系(例如卵巢癌患者服用口服避孕药的情况比没有卵巢癌的对照更为少见)。

  6. 对照的选择是极富挑战性的,以子宫内膜异位症的研究为例。因为子宫内膜异位症需要手术来确诊,研究者常常会选择曾经进行腹腔镜或者剖腹术发现没有该症的女性作为对照。但是,有手术史的女性通常并不能代表所有可能会出现子宫内膜异位症的妇女,因为手术并非是随机事件。

三、去哪里寻找对照

研究者(或者是读者)需要确定病例和对照是从哪个人群里面来的。

  1. 已知人群(A known group)是在一段时间内的一个明确群体。
    • 可以是加勒比海一周巡游游轮上的乘客和乘务人员。
    • 也可以是十年间在瑞典生活的所有人员。
    • 病例是这个人群中出现所研究疾病的人,而对照是这个人群中未出现这个疾病的人。
    • 因而,病例对照研究可以看作是出现在一个大型队列研究中的一部分。
      • 所谓的巢式病例对照研究(nested case-controlstudies) 就是一个很好的例子。
    • 这种情况下主要的任务就是寻找该人群中的病例。在明确的人群中选取对照相对较易。
  2. 通常,病例的来源人群是未知的(unknown)。
    • 例如,医院急诊室中机动车事故的伤员,要确定其人群来源就是一个挑战。
      • 有的伤员也许就是附近的居民。
      • 有的也许是途经附近高速公路的过客。
      • 还有的可能是用直升飞机从乡间运来的。
    • 这时候,病例的选择是在确定来源人群之前的。病例选择是该研究中的最简单部分,而确定应该从什么人群里去选择对照是研究中富有挑战性的一部分。
    • 病例和对照应该是具有相同的人群来源的。
    • 一个解决方法是把病例和对照都限制在该市中。

(一)对照来自已知人群/人群对照(Population controls)

  1. 如有可能,可以从未患所研究疾病的人群之中随机选取对照。
    • 调查游轮上食源性疾病的暴发通常就可以采用病例对照研究。
    • 病例就是那些出现肠胃炎的病人。
    • 对照则是船上的其他人。
    • 该研究试图寻找是否病例组比对照组具有更高的特定食物暴露率。而且,没有吃过那种食物的人应该不会出现症状。
    • 在游轮上可以在那些未出现症状的人里面进行概率抽样(probability sampling)。
    • 这样的话,对照组就可能是船上未患上肠胃炎的所有人的一个 随机样本(random sample)。
  2. 人群对照(Population controls)优缺点并存
    • 随机样本可以提供具有代表性的对照,从研究结果来推断人群情况也是合理的。
    • 但另外一方面,当人群中并非所有病例都能被确认时,或者有相当一部分潜在对照不能找到时(比如去度假了),人群对照就不是那么合适。
    • 另外,人群对照在研究的参与度上也不及医院这一类的健康机构。
  3. 如果没有人群的花名册,随机电话号码拨号法(random-digit dialling of telephone number)也可实现对潜在对照的抽样。
    • 可以从电话局处获得不完全号码(如8位数)的随机样本。

    • 缺失的2位数用随机数字填上然后拨号。

    • 这种方法也是优缺点并存。

      • 它可以尽可能均等地对居民电话号码进行抽样,而基本上不会纳入商业经营性电话号码。
      • 这种方法也能囊括一些新号码或者黄页上尚未列入的号码。
      • 表面上看它是对电话号码进行随机抽样,但其目的却是对潜在对照进行随机抽样。
      • 但并非所有人都有电话。没有电话的人可能属于社会经济地位较低的阶层。
      • 另一方面,有的人可能拥有不止一个电话号码(如同时有家庭电话和手机),这些人可能属于社会经济地位较高的阶层。这些人有更多的机会被联系上。
      • 还有一些电话号码可能同时会有几个潜在对照在使用。
      • 不太愿意进行电话访谈的人和非常愿意的人也是不一样的。例如,年轻女性就不如其他人那么喜欢接受这种随机电话访谈。
    • 尽管这些小问题可能会导致偏倚,但是用这种方法来选择的对照基本上还是能代表目标人群的。

(二)对照来自未知人群

邻居对照(Neighbourhood controls)

  1. 邻居对照通常是采用一种特殊的模式从病例所在街区中抽取的。对照的选择必须是始终独立于暴露因素之外的。为了避免选择偏倚,访问者按照预先确定的模式去探访一个个家庭。一 般有两种途径来选择对照所在的家庭:
    • 人口登记资料(population register)
      • 可以通过所谓的交叉参考(cross-reference)目录/十字交叉或反向街道(crisscross or reverse-street)目录来获得家庭住址和相应的电话号码。
    • 挨家挨户调查(door-to-door canvassing)
  2. 有一个关于口服避孕药和肝细胞腺瘤之间关系的病例对照研究采用了挨家挨户调查来选择对照。研究者访问病例家庭的每一个人,然后试图从每一个病例所在街道去选择3个对照。另一个在农村里的病例对照研究则首先从地图上标定每一个对照的邻居,然后访问者从病例的家庭开始放射状环形往外探访其邻居,直到配对选到一个合适的对照为止。
  3. 邻居对照的优点:不需要一个完整的花名册,同时也可以把很多混杂因素考虑在内(如社会经济地位、天气等)。
  4. 邻居对照的缺点:
    • 去探访调查邻居的经费也是非常昂贵的。
    • 以家庭为单位进行抽样也存在和随机电话号码拨号法一样的问题。
    • 另外,调査中的无应答是一个很大的挑战。有一份报道称平均要接触9个家庭才能得到一个对照,而我们的经验告诉大家这个比例可以高达150/1。
    • 不仅在城市里面会碰到这样那样的挑战,在农村地区也许麻烦更多。我们曾经参与的一个病例对照研究中,访问者不但要对付德国牧羊犬和带倒刺的铁丝篱笆,甚至还有被当地过度警觉的警察带走的经历。

医院对照(Hospital controls)

  1. 病例对照研究广泛采用了医院对照的方法,当然这种对照也引来非常多的批评。
  2. 医院对照有好几个突出的优点:
    • 方便
    • 选取和访问对照耗资不多
    • 获得的信息质量和病例相似
    • 对照参与度高
    • 对照和病例有类似的健康服务要求
  3. 医院对照的缺点也很突出:
    • 利用医院的病人作为对照是假定他们能代表所研究疾病的来源人群的基础暴露率,这意味着导致该病人入院的疾病与所研究的暴露因素无关。可以通过排除那些入院诊断可能与所研究暴露因素有关的病人来解决这个问题。
      • 例如有一个研究避孕和系统性红斑狼疮的病例对照研究是基于医院对照的,研究者就未将妇产科的住院病人纳入对照组。这么做是因为考虑到到三级医院住院就医的妇女的妇产科病史和大多数社区妇女都不一样。
    • 一个医院里面不同疾病的病人可能会有不同的人群来源。
    • 对照的选择应该和所研究疾病的人群来源相同。
  4. 住院率的差异也会引起偏倚。例如,同样是输卵管炎,医生往往会更经常地将有宫内避孕器的妇女收治入院,这样就会夸大了输卵管炎和宫内避孕器之间的联系(OR)。
  5. 有些研究提示医院对照也许并不能代表人群危险因素的情况。
    • 医院对照与人群对照相比,更接近病例的情况,这样就会使得OR朝1的方向偏倚。
    • 还有人发现,医院对照和人群对照在体重、吸烟习惯和疾病负担上都不一样。

朋友对照/伙伴对照(Friend or associate controls)

  1. 有时候病例的朋友或者是工作同事也可作为对照。
  2. 这种做法的好处是可以有一个和病例在很多重要方面(如社会经济地位和教育等)都相似的对照组。
  3. 但是,通过询问病例来寻找潜在对照严重违背了随机化的原则。病例也许和他提供的潜在对照更合得来或者更常在一起,这样对照的代表性就有问题了。
  4. 不过另一方面,有人认为对于研究在地下人群中一些不被大众社会所接受的行为(如毒品滥用)时,朋友对照更为方便,而且较少有选择偏倚。
  5. 有一项研究即要求毒品滥用者提供两个朋友:一个有毒品滥用的朋友(增加1个新病例)和一个从未使用毒品的朋友(对照)。利用这个朋友的关系链或者滚雪球的方法收集了来自于同一人群的病例和对照。

亲属对照(Relative controls)

  1. 亲属和病例有很多相似之处。如果遗传基因可能是混杂因素,亲属对照可以用以校正之
  2. 很多其他暴露因素在亲属之间也很相似,如兄弟姐妹间的饮食习惯、环境因素、生活方式和社会经济地位都大体相同。例如,当兄弟姐妹作为对照的时候,家庭大小这个因素的潜在作用就不能检测了。
  3. 一些研究者总结认为只要特定暴露的风险(exposure-specific risks)不随着时间而变化,亲属对照就不会影响研究结果。

四、设置几个对照组

  1. 有人主张使用两个独立的对照:如果两组结果是一致的,则其结果更为可信。
  2. 例如,有个关于雌激素治疗和子宫内膜癌关系的病例对照研究同时使用了医院和社区对照。但其两个对照的结果差异很大,出现这种情况,该研究就难以得出一个明确的结论。
  3. 设置几个对照还会增加研究开支,耗时耗力。
  4. 通常情况下,我们建议尽可能选择一个最佳的对照组。

五、每个病例设置几个对照组

  1. 读者有时会很诧异地发现有的病例对照研究中病例数和对照数相差悬殊。
  2. 临床医生通常会觉得病例数和对照数应该是相同的。这种不一致往往提示研究者希望增加可能存在的差异检出率(differences of importance)。
  3. 在非配对的病例对照研究中,如果搜集一个病例和一个对照的耗费差不多的话,病例和对照的数目大致相似是最有效的。
  4. 但有时候,病例数目较少而且难以增加(例如5年间洛杉矶年轻女性患有肝癌的病例只有11例),选取同等小数目的对照则难以检出其联系。增加对照数使得对照和病例数目之比达4/1就增加了研究的检验效力(power)。但是这个提升并非线性的。对照和病例之比超过了4/1以后,再增加对照数目检验效力几乎不会增加。
  5. 增加对照和病例之比会改变可信区间(confidence intervals)(结果的精确性),但不能减少偏倚。

六、如何评价对照

  1. 病例对照研究结果的可信度有赖于选择合适的对照。
  2. 对照应该能代表人群中的基础暴露率。因此,除了没有罹患所研究的疾病,对照在其他各主要方面都应该和病例相似。
  3. 选择对照应该独立于所研究的暴露因素。
  4. 当潜在对照所在的研究人群是已知时,最好是选择其全体作为对照,如果不可行,则选择随机样本。如这个人群是未知的,选择对照就比较困难了。一般情况下,我们选择时间上和空间上与病例接近的非病例作为对照。
  5. 通常选择一个好的对照组。如果不太确信设置该对照组是否合适,有时可以设置第二个对照组。
  6. 如果病例数目太少,对照病例之比可以高达4/1,以此来增加研究的检出效力。不过这种方法并不能提高其真实性。
  7. 不合适的对照不但会导致错误的研究结论,还对医学认识的发展有潜在危害。读者在研读病例对照研究报告时需要认真看看该研究中对照的特点。研究报告结果的判读还掌握在读者手中。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

观察性研究的偏倚和病因联系

临床医生阅读医学研究时面对两个重要的问题:

  1. 报道是否可信?
  2. 如果可信的话和我的临床实践有关吗?

对发表的研究不加批判的接受可能导致严重的错误和资源的浪费。

一、摘要

  1. 医学文献的读者们需要考虑两种真实性:内部的和外部的。
  2. 内部真实性指的是研究测量了计划要做的内容,外部真实性是从这个研究推广到读者的患者的能力。
  3. 对于内部真实性,选择偏倚、信息偏倚和混杂是在所有观察性研究中或多或少都会出现的。
  4. 选择偏倚是因为两组之间缺乏可比性。
  5. 信息偏倚是对暴露、结局、或两者均不正确的测定引起的。
  6. 信息偏倚的影响与它的类型有关。如果一组信息的采集与另一组不同就会产生偏倚。与之相比,无差异错分趋向于模糊真实的差异。
  7. 混杂是一种对效应的混淆或模糊的作用:研究者试图将一种暴露因素与结局相联系,但实际上却衡量了第三因素(混杂参数)的作用。
  8. 混杂可以通过几种方法控制:限定、配对、分层和更复杂的多元分析。
  9. 如果读者不能用选择偏倚、信息偏倚或混杂偏倚来解释结果,另一个解释可以是机遇(chance)。即使这些偏倚可以解释假的有显著意义的结果,最后还需要检查机遇。
  10. 鉴别假的、非直接的关联与真正的因果关联可能很困难。
  11. 因果关系的判断标准中,联系的时间顺序、强度、一致性以及剂量效应关系的证据可以支持病因联系。

二、内部和外部真实性/Internal and external validity

(一)内部真实性

  1. 定义:the ability to measure what it sets out to measure/度量它要测量的内容的能力。
  2. 从研究参加者获得的推论(inference)应该是准确的,换句话说,研究应该避免偏倚,或者说避免系统误差(systematic error)。
  3. 内部真实性是临床研究的必要条件(sine qua non),不正确结果在更大人群中的推广不仅是不值得的也是危险的。

(二)外部真实性

  1. 从研究参加者得出的结果能否推广到读者的病人?
  2. 对医学研究来说,进行全体人口普查常常是不可能的,习惯性的策略是选择一个样本进行研究,并希望将结果外推到实践中去。
  3. 评估外部真实性比内部真实性更主观一些。

(三)两者的权衡/trade-offs

  1. 随机对照试验(randomised controlled trials)比观察性研究更可能避免偏倚,但由于它们常常纳入选择过的病人,外部真实性会受到影响。
    • 这种参加者不合适(unsuitable participants)的问题称作曲解的组合(distorted assembly)
  2. 在随机对照试验中,参加者和不参加的人是不同的(比如前者更健康)。这也是严格的纳入标准的限制作用。

三、偏倚/Bias

偏倚(bias)削弱了研究的内部真实性。在研究中的偏倚表示与真相的偏离。所有的观察性研究(以及许多比较差的随机对照研究)有固有的偏倚,对调查者、编者和读者的挑战是把它们找出来并且判断它们有没有影响到结果。

(一)在观察性研究中寻找什么

  1. 选择偏倚存在吗?
    • 在队列研究中,暴露组和非暴露组中的参加者除了暴露因素外,在所有其他的重要方面类似吗?
    • 在病例-对照研究中,病例组和对照组除了研究的疾病外,在其他的所有重要方面类似吗?
  2. 信息偏倚存在吗?
    • 在队列研究中,暴露组和非暴露组是用同样的方法获得结局的信息吗?
    • 在病例-对照研究中,病例组和对照组是用同样的方法获得关于暴露因素的信息吗?
  3. 混杂因素存在吗?
    • 结果能够用一个与暴露和结局都相关但又不在因果通路(causal pathway)上的因素(如年龄、吸烟、性行为、饮食等)来解释吗?
  4. 如果结果不能用以上三种偏倚来解释,那会不会是机遇(Chance)的结果呢?
    • 相对危险度或比值比及其95%可信区间是多少?
    • 差异有统计显著性吗?如果没有,那研究有没有足够的效力(adequate power)来发现临床上重要的差异?
  5. 如果以上分析都不能解释结果,那这时(也只有这时)可以说发现可能是真的,值得关注。

(二)偏倚的分类

  1. 按照研究过程出现的次序分为四类:
    • 易感性偏倚(susceptibility bias)指的是基线特征的不同
    • 实施偏倚(performance bias)指的是处理的不同熟练程度
    • 测量偏倚(detection bias)是对结局的不同测量
    • 转移偏倚(transfer bias)则是差异性失访
  2. 按照偏倚主题的不同分为三类:
    • 选择偏倚(selection bias)
    • 信息偏倚(information bias)
    • 混杂偏倚(confounding)

(三)选择偏倚(selection bias)

各组在所有重要的方面都相似吗?

选择偏倚来源于所研究的各组间缺乏可比性。

  1. 在队列研究中,暴露组和非暴露组除了暴露因素外在某个重要方面存在不同。
    • 成员偏倚(membership bias):选择成为一个组的成员的人(如慢跑锻炼者)可能在一些重要的方面与其他人不同。
      • 举个例子来说,队列研究和病例-对照研究起初显示心肌梗死后慢跑可以预防心肌梗死的再发生。然而,随机对照研究不能确定这种益处。那些选择锻炼的人可能在其他重要的方面与选择不锻炼的人不同,比如饮食、吸烟和是否存在心绞痛。
  2. 在病例-对照研究中,选择偏倚表示病例和对照除了所研究的疾病外还有重要的不同。
    • Berkson偏倚/Berkson悖论/纳入偏倚(admission-rate bias):病例和对照的医院入院率不同造成的
      • Berkson起初认为这种现象是因为有同时存在的其他疾病所致
      • 对所感兴趣的暴露因素的认识也可能提高入院率
        • 例如,关注患有输卵管炎女性的医生更可能建议那些使用宫内节育器而不是使用口服避孕药的妇女住院治疗。在以医院为基础的病例-对照研究中,这样会预先造成高比例的暴露于宫内节育器的病例,虚假抬高比值比(住院的输卵管炎女性患者中,使用宫内节育器的比例虚假增高)。
    • Neyman偏倚:是一种发病-患病偏倚(incidence-prevalence bias),当暴露和选择研究参加者之间存在时间差时就会产生。
      • 这种偏倚在研究迅速致命、暂时的或者亚临床的疾病时会不期而至。Neyman偏倚产生了不能代表大众病例的病例组。
      • 例如以医院为基础的关于心肌梗死和铲雪(感兴趣的暴露因素)的病例-对照研究可能错过在赶往医院途中就死亡的人,他们永远不能活着到达医院,从而可能极大地降低心肌梗死与这种费力的活动关系的比值比(心肌梗死的病例组中铲雪活动虚假减少)。
  3. 其他类型的选择偏倚
    • 暴露(检出信号)偏倚/unmasking(detection signal) bias
      • 暴露因素除了可能导致结局本身之外还会导致寻找这个结局的过程。
      • 例如,雌激素替代治疗可能导致无症状子宫内膜癌患者出血,结果启动了相关诊断的检查。在这个例子中,暴露因素使亚临床癌症被发现,导致比值比虚假的上升。
    • 无应答偏倚/non-respondent bias
      • 在观察性研究中,无应答者不同于应答者。
      • 吸烟者就是一个例子:吸烟者不大可能会像非吸烟者、吸烟斗和雪茄的人那样归还调查表。

(四)信息偏倚(information bias)

有没有用同样的方法收集信息?

信息偏倚,亦被称作观察偏倚(observation bias)、分类偏倚(classification bias)或测量偏倚(measurement bias),源于不正确地确定暴露因素或结局,或者两者均而有之。 > 例如,一个调查者可能在床旁收集一个病例关于暴露因素的信息,但仅通过电话收集社区对照者的信息。

在队列研究或者随机对照试验中,暴露组和非暴露组中应该用同样的方法获得关于结局的信息。

病例-对照研究中,应该在病例和对照中用同样的方式收集关于暴露因素的信息。

为了减小信息偏倚,应该由不知道应答者是病例还是对照的人来采集暴露因素的细节。同样,研究主观结局的队列研究中,观察者应该不知道每一位参加者的暴露状态。

信息偏倚产生的方式

  1. 诊断怀疑偏倚(Diagnostic suspicion bias):指对于疾病的假设病因的了解,可能启动在暴露者中对于是否存在该病更强的检测
    • 例如偏向在静脉注射毒品的人中查找HIV-1感染的情况。
    • 一种疾病的存在可能使得人们加强寻找所研究的感兴趣的暴露因素。
  2. 家族史偏倚(family history bias):医学信息的传递在感染和非感染的家族成员中是不一样的。
    • 类风湿性关节炎
  3. 回忆偏倚(recall bias):患者趋向于努力搜寻他们的记忆来分辨什么可能导致了他们的疾病,而健康对照者则没有这个动力。

信息偏倚是随机的还是朝向一个方向

  1. 如果一个组的信息收集和另一个组不同,偏倚就会出现,结果造成相对危险度或者比值比上升或下降,随偏倚的方向而不同。
  2. 无差异错分/non-differential misclassification(系统噪音)趋向于模糊真正的差别。
    • 模棱两可的问卷可能导致对病例和对照收集数据的错误,使比值比趋向1,意味着没有关联。

(五)混杂偏倚(confounding)

有没有外来因素干扰了相互作用?

  1. 混杂(confounding)是一种对作用的混淆或干扰。研究者试图将一种暴露因素和结局相联系,但事实上测量了第三个因素的作用,称为混杂变量(confounding variable)。混杂变量与暴露因素有关并影响结局,但不在暴露因素和结局的因果关系作用链过程中。更简单地说,混杂是方法学上的美中不足。

  2. 口服避孕药和心肌梗死以及吸烟的例子

    早期关于口服避孕药的安全性研究报道称它可以显著增加心肌梗死的危险性。这一关联后来证实是错误的,因为用避孕药的人中吸烟者的比例很高。吸烟在这里就干扰了口服避孕药和心肌梗死的联系。用避孕药的女性也在很大数量上选择吸烟,而吸烟增加了心肌梗死的危险性。尽管调查者认为他们衡量的是避孕药的影响,但事实上测量了服药者隐含的吸烟的作用。

  3. 我们对人类生物学认识的不足不可避免地限制了对混杂的控制。未被考虑到的混杂因素也会在观察性研究中逃避控制。

四、控制混杂

如果研究中存在选择偏倚或信息偏倚,就会不可弥补地影响结果。内部有效性是注定受影响的。

但如果存在混杂,这种偏倚是可以纠正的,前提条件是预计到混杂因素,而且已经收集了必要的信息。

可以在研究完成前或后控制混杂,这些方法的目的是使研究组间达到一致性(同质性/homogeneity)。

(一)限制/Restriction

也称为排除因素(exclusion)或者规定(specification)。例如,吸烟可能是一个混杂因素,可以在研究中只纳入非吸烟者。尽管这一策略避免了混杂,但也阻碍了招募过程(及效力power),妨碍了结果外推到吸烟者。限制牺牲了外部真实性,可能增加研究的内部真实性。

(二)配对/Matching

  1. 另一个控制混杂的方法是两两配对(pairwise matching)。在吸烟注定是一个混杂因素的病例-对照研究中,病例和对照可以在吸烟状态方面配对:对每一个吸烟的病例可以找到一个吸烟的对照。
  2. 这一方法尽管很常用但有两个缺点。
    • 如果在几个潜在的混杂因素方面进行配对,纳入过程会很困难
    • 而且从定义就可以知道,不能研究被配对的变量

(三)分层/Stratification

  1. 分层可以看做是后限制(post hoc restriction),不是在研究的自然过程中而是在分析过程进行。

  2. 例如,结果可以根据混杂因素来分层。以吸烟为例,吸烟者和非吸烟者可以分别计算,来看看结果是否相同而独立于吸烟状态。

  3. Mantel-Haenszel法将各层的数据合并形成一个总的统计值来代表效应。各层的权重与其方差呈反比(比如数量大的层比数量少的权重大)。如果Mantel-Haenszel校正的效应明显与粗效应(crude effect)不同,肯定存在混杂。在这种情况下,认为校正的效应估计值更好。

  4. 混杂并不总是直观的。

    • 假设2000位女性参加的队列研究,使用宫内节育器与输卵管炎显著相关
      • 相对危险度为3.0
      • 95%可信区间为1.7~5.4
    • 然而,性伴侣的数目与女性选择避孕以及上生殖道感染相关
    • 有一个以上性伴侣的女性以更高比例选择宫内节育器
      • 和只有一个性伴侣的女性相比为700:300
    • 伴侣的数目也与感染的危险性相关
      • 有一个以上伴侣的人为6%,而只有一个伴侣的则为1%
    • 按伴侣数目进行分层,每一层的相对危险度为1.0。提示宫内节育器与输卵管炎无关。
    • 控制了这一混杂作用后
      • Mantel-Haenszel加权的相对危险度为1.0
      • 95%可信区间为0.5~2.0
    • 在这个例子中,危险性呈3倍升高完全是混杂偏倚造成的。

(四)多元分析/Multivariate techniques

  1. 用数学模型在控制多个其他变量的效应的同时,评价一个变量的潜在效应(potential effect)。
  2. 其显著的优点是可以比分层法控制更多的因素。
    • 例如,研究者可以用多元logistic回归来研究口服避孕药对卵巢癌危险性的作用。这样,研究者可以同时控制年龄、种族、家族史、产次等。
    • 另一个例子是将比例风险回归分析用于死亡时间,这种方法能够同时控制年龄、血压、吸烟史、血脂和其他危险因素。
  3. 对一些研究者来说,多元方法的缺点包括理解结果比较困难以及不能对数据进行手算。

五、机遇/Chance

  1. 如果读者不能在选择偏倚、信息偏倚或者混杂偏倚的基础上解释结果,机遇(chance)可能是另一个解释方法。
  2. 之所以先检查偏倚后检查机遇是因为偏倚很容易就可导致非常显著的(尽管是假的)结果。非常遗憾的是很多读者用\(p\)来判断有效性,而不考虑其他更重要的因素。
  3. 著名的\(p\)测量的是机遇(chance)。它给读者关于假阳性结果的可能性:即,在本研究中观察到差异,但在更大人群中不存在的可能性(I类错误)。
  4. 将0.05的\(p\)作为阈值在医学上是没有基础的。它是从20世纪初的农业和工业试验中产生的。
  5. 如果研究结果的\(p\)没有达到这个水平,研究者要看看研究是否有足够的效力来发现临床重要的差异。许多“阴性”研究只是因为参加者太少。
  6. 研究者最好使用可信区间(confidence intervals)而非假设检验(hypothesis tests)的方式来展示关联。

六、判断关联

统计上有联系并不一定意味着有因果联系

(一)假关联(false cause,spurious associations)

选择偏倚、信息偏倚和机遇造成的

(二)间接关联(indirect associations)

间接关联(来源于混杂)是真的、但不具有因果关系的关联。

(三)因果关联(causal associations)

Hill提出的判断因果关系的标准

  1. 时间顺序/Temporal sequence
    • 暴露因素是不是在结局之前?
  2. 关联的强度/Strength of association
    • 用相对危险度或者比值比来衡量的话,作用的强度怎么样?
  3. 关联的一致性/Consistency of association
    • 其他人是否观察到这种作用?
  4. 生物梯度(剂量-反应关系)/Biological gradient (dose-response relation)
    • 增强的暴露因素是否使结局增加?
  5. 关联的特异性/Specificity of association
    • 暴露因素是否只导致这一结局?
  6. 生物学可靠性/Biological plausibility
    • 这一关联有道理吗?
  7. 与现有的知识的连贯性/Coherence with existing knowledge
    • 这种关联与已知的证据一致吗?
  8. 实验性证据/Experimental evidence
    • 做过随机对照试验吗?
  9. 类似/Analogy
    • 这一关联与其他关系有类似的情况吗?

Hill标准的可行性

  1. 唯一坚实的标准是时序性:病因必须早于其作用。然而,在研究中,特别是关于慢性疾病的研究,这一鸡和蛋的问题常常令人退缩。
  2. 有人提出,在队列研究中相对危险度在3以上,或者病例-对照研究中比值比在4以上则能够提供对于病因联系的有力支持。
  3. 在对不同人群进行的不同的研究设计中,如果观察到一致的关联也支持真的关联。
    • 例如,世界各地的研究结果一致表明口服避孕药对患卵巢癌有保护作用,这就支持一种病因联系。
  4. 生物梯度的证据也支持病因联系。
    • 肺癌死亡的危险性与吸烟的年数线性相关(增加的暴露与增强的生物学作用相关)

Hill标准的不可行

  1. 特异性是一个弱的标准。很少有暴露只导致一个结局,仅有一些例外,如狂犬病毒。如果一个联系是高度特异性的,也支持其为因果联系。由于许多暴露(如吸烟)导致很多结局,缺乏特异性,但并不能反对病因联系。
  2. 生物学可靠性是另一个弱的标准。300年前临床医生们反对关于柑橘类水果可以预防坏血病的想法。
  3. 与研究的关联(association)有一致性的辅助生物学证据可能是有帮助的。
    • 例如,吸烟对动物支气管上皮的作用与人类癌症增加的危险性一致。
  4. 实验性证据往往阙如。
  5. 类推有时是有害的。沙利度胺会导致出生缺陷,有些律师(成功地)提出广泛使用的妊娠止吐药盐酸双环胺也可导致出生缺陷这一类推结论,尽管证据支持相反的结果。

七、结论

  1. 研究需要内部真实性和外部真实性:结果应该是正确的,而且能够外推到人群中。
  2. 关于偏倚的简单的列表(选择、信息和混杂)和机遇能够帮助读者解读研究报告。
  3. 如果研究中出现了统计学关联,判断关系的指南能够帮助读者判断关联是假的、间接的还是真的。

说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

描述性研究可以做什么,不能做什么

一、摘要

  1. 描述性研究常常代表了新的领域科学研究的第一步。
  2. 描述性报告的基本元素是对所研究的疾病或状态进行明确的、特定的和可计量的定义。
  3. 就像报纸一样,好的描述性报告回答五个基础问题:谁、什么、为什么、什么时候、在哪里,以及第六个,那又如何。
  4. 针对个人的研究有个案报告、病例系列报告、横断面研究和监测研究,而生态学的关联研究是针对人群的。
  5. 在医学文献中,个案报告是最小的发表单位。病例系列报告则在一篇报道中有数个病例,短期内不寻常病例的集中报道常常预示着新的流行事件。
  6. 横断面(现况)研究描述人群的健康状况。监测可以看作是对社区健康的警示,对那些需要了解情况的人进行反馈是监测的必要组成部分。生态学上的关联研究寻找人群中而不是个人的暴露因素和结局的关系。
  7. 描述性研究有三个重要作用:趋势分析、健康记录和产生假设。
  8. 描述性研究的报告中常见的错误是超越资料:没有比较组的研究不能得出关于关联、因果关系(associations, causal)等的推论。从描述性研究中产生的假设常 在严密的分析性研究中进行验证。

二、描述的五元素

传统的描述性流行病学关注三个问题:人、地点和时间,或者说致病因素(agent)、宿主(host)和环境(environment)。

另一个方法是新闻报道的方法。好的描述性研究就像好的新闻报道,应该回答5个“W”问题:

  • 谁(who)
  • 什么(what)
  • 为什么(why)
  • 什么时候(when)
  • 在哪里(where)
  • 隐含的第六个问题,那又怎么样(so what)

(一)所研究疾病的对象是谁?(who)

年龄和性别需要被叙述,其他的特征也可能很重要,包括种族、职业或休闲活动。例如:

  • 静脉血栓栓塞的危险随着年龄呈指数级增加。
  • 只有1%的乳腺癌在男性中发生,而Klinefelter综合征或者有乳腺癌家族史则使其危险性增加。
  • 种族影响子宫平滑肌瘤的发生。
  • 商业捕鱼仍然是危险的行业。
  • 开全地形车或者雪地汽车,特别是醉酒后驾驶更有生命危险。

(二)所研究的状态或疾病是什么?(what)

  1. 有一个明确的、特异的、可检测的疾病定义是描述性研究重要的一步。
    • 有些诊断是明显的:骨折
    • 其他的诊断则可能具有挑战性:
      • 多发性硬化
      • 系统性红斑狼疮
      • 盆腔炎症性疾病(输卵管炎)
  2. 有些机构根据共识(consensus)或者德尔菲法(Delphi panel approach)而不是证据,公布了疾病的定义,而随后被发现是不正确的。
    • 有依据提示阴道分泌物和红细胞沉降率升高提示输卵管炎,但这些预测信息就没有纳入到广泛应用的诊断标准中。

      德尔菲法(Delphi method):是一种结构化的决策支持技术,它的目的是在信息收集过程中,通过多位专家的独立的反复主观判断,获得相对客观的信息、意见和见解。

      调查组通过匿名方式对选定专家组进行多轮意见征询。调查组对每一轮的专家意见进行汇总整理,并将整理过的材料再寄给每位专家,供专家们分析判断,专家在整理后材料的基础上提出新的论证意见。如此多次反复,意见逐步趋于一致,得到一个比较一致的并且可靠性较大的结论或方案。

      德尔菲法的要点是:被征询意见的专家采用匿名发表意见,专家之间不可互相讨论,不发生横向联系。从而避免专家意见向少数影响大的专家意见趋同。

  3. 一般来说,严格的病例定义(case definitions)标准是理想化的。不可否认的是,如果仅仅把比较严重的病例作为研究对象,就可能漏掉轻的或者早期的病例。尽管这一方法不可避免的导致一些信息的丢失,但是这有较好的特异性。严重的病例不像轻度的病例那样受到其他条 件的干扰。
    • 中毒性休克综合征的严格病例定义要求累及多个器官系统。

(三)为什么这种情况或疾病会发生?(why)

描述性研究常常产生关于病因的线索,可以用于设计更复杂的研究。

临床观察 内在的关联
青年女性的肝细胞腺瘤 高剂量的口服避孕药
新生儿的失明 婴儿恒温箱的高氧浓度
青年男性Kaposi肉瘤 感染HIV-1
雇员的肝血管肉瘤 工业上接触氯乙烯(vinyl chloride)
新生儿的白内障、心脏缺陷和聋哑 妊娠时母亲感染风疹

(四)什么时候这种状态是常见或者少见的?(when)

  1. 时间会给健康事件提供重要的线索。
    • 摄入葡萄球菌毒素后胃肠炎的暴发就是一个典型。
  2. 有些时间上的联系可以是长久的
    • 例如阴道腺瘤和阴道透明细胞癌是在母体子宫内暴露于乙二基己烯雌酚多年后才发生。
    • 宫颈和其他上皮癌也是在感染了人乳头状瘤病毒数十年后才发生的。
    • 出生和死于肺炎、流感的情况就像精子计数那样有季节性规律。

(五)这种疾病或状态在哪里发生或在哪里不发生?(where)

地理因素对健康有巨大的影响。

  • 饮水中含氟量高能够保护牙齿不患龋齿
  • 纬度对多发性硬化症和维生素D缺乏症都有影响
  • 阳光可能减少或增加癌症的危险性

(六)那又如何?(so what)

这个隐含的“W”问题与公共健康影响有关。

  • 这个情况是现在发生的吗?
  • 是否及时报告?
  • 严不严重?
  • 是不是有很多人发生?
  • 牵涉的社会范围广吗?
  • 以前研究过吗?

三、描述性研究的类型

描述性研究包括两大类:研究每个个体(individuals)和研究相关的人群(populations)。

(一)个案报告(case report)

个案报告是医学文献最小的发表单位。观察力敏锐的临床医生通常报告一些不同寻常的疾病或关系,然后推动更严密的研究设计。例如,一个临床医生报道了服用口服避孕药的妇女患了少见的肝细胞腺瘤。一个大型的病例对照研究针对这个方向进行研究,证实了长期服用高剂量的这种药物和这种少见但有时致命的肿瘤存在强烈的相关性。并不是所有的个案报告 都能解决严重威胁健康的问题,有时候只是使乏味的医学文献活跃一些。

(二)病例系列报告(Case-series report)

  1. 病例系列报告是指在一个报道中集中报告数个个案。有时候,几个类似的案例在短期内的出现预示着一种流行疾病。
    • 在洛杉矶同性恋男性中出现类似的临床综合征警示医学界艾滋病在北美洲的流行。
  2. 单个不寻常病例的报告可能不能启动进一步的研究,而数个不同寻常病例(超出期望)的系列报告就增加了考虑的分量。
  3. 病例系列报告的便利因素是他们能够组成病例对照研究的病例组从而对疾病的原因进行研究。

(三)横断面(现况)研究[Cross-sectional (prevalence) studies]

  1. 现况研究描述人群的健康状况。
    • 美国联邦政府进行周期性人群健康调查(如健康面试调查和健康营养监测调查)。与10年一度的调查类似,这些研究提供了人群在特定时间的健康状况。

      the Health Interview Survey and the Health and Nutrition Examination Survey

  2. 患病调查也可以在小样本的人群中进行。
    • 例如调查显示波多黎各(Puerto Rican)医药公司雇员中男性乳房发育的患病率特别高。这一发现导致一个假设的提出:工厂中的雌二醇尘埃可能是病因,血清雌二醇浓度支持这一假设。工厂中加强控制尘埃后这一疾病的流行情况停止了。类似的现况研究也将男性乳房发育与难民 的饮食和污染的食物联系起来。

  3. 尽管一般来说横断面研究与队列研究和病例对照研究不同,但它也可以看作是一种在队列研究人群中进行病例对照研究的类似情况。因为暴露和结局被同时确认(横断面研究的特征性定义),花费很小,失访也不是问题。但正因为暴露和结局是同时确认的,经常不可能分辨其时间顺序,只有像性别和血型这些长时间的暴露因素才会肯定比结局要早。对于变化的暴露因素,过去病因学的相关性信息则比当前的信息更有意义。

(四)监测(Surveillance)

  1. 监测可以看作是对社区情况的警示,一个更正式的定义是“持续的系统性收集、分析和解释对规划、实施和评估公共健康实践很重要的健康资料,并在此过程中不失时机地把这些资料传递给需要的人”。
  2. 其特征是像自动控制装置一样的反馈(feedback),对问题的预防和调控是反馈回路的基本内容。
  3. 监测可以是主动的和被动的。
    • 被动的监测依赖于通过常规途径收集的数据,如死亡证明。
    • 主动的监测寻找病例。流产相关的死亡报告就是一个例子。
      • 从1972年开始,美国疾病控制和预防中心(the US Centers for Disease Control and Prevention)就用多种重叠的来源(例如国家产妇死亡率研究委员会、职业团体、报纸和专业同事)进行主动的死亡监测。通过比对官方的统计数字,主动的监测可以发现两倍的死亡病例。对产妇死亡的报道过低是一个国际问题。
  4. 流行病学监测对健康有重要的贡献,使人印象最深刻的当属天花病毒的根除。对天花的监测和防治导致了其在世界范围的消除,这是公共卫生的一项特别成就。通过检测发现病例并对周围易感人群进行免疫接种的方法停止了天花的传播。因为它没有非人类的载体,所以这种病毒就消亡了。

(五)生态学相关性研究(Ecological correlational studies)

  1. 生态学相关性研究在人群中并非个体层面寻找暴露和结局的关系。因为已经收集了很多数据,所以可以很方便地开始假设的相关性研究。
  2. 暴露和结局之间相关性的测量值是相关系数\(r\)(correlation coefficient):表示暴露和结局之间的相关性的线性关系如何。
    • 冠心病的死亡率与人均香烟销售量相关
  3. 相关性研究有严重的缺陷
    • 不能在个体中将暴露与结局相联系
    • 不能控制混杂因素(confounding),即对效应产生混淆或模糊的因素
      • 如观察到冠心病的死亡率也与人均彩色电视机数相关。即使是对电视最严厉的批评也不大可能证明电视机阻塞了冠状动脉,这是一个“生态学研究的谬误(ecological fallacy)”。

四、描述性研究的应用

(一)趋势分析/Trend analysis

正在进行的监测常常用于趋势分析,例如在俄罗斯联邦中突发流行的梅毒,辅助生殖技术导致的多胎、早熟、低出生体重的国际流行。这些情况的流行引起了社会问题。

(二)规划

第二个应用是卫生规划(health-care planning)。

  1. 腹腔镜的引入与口服避孕药的不良反应以及宫内节育器的副作用使输卵管结扎率在20世纪70年代的美国翻了3倍。
  2. 医院和流动手术中心的手术需求激增,但对床位的需求却减少了。
  3. 与之类似的是针对艾滋病患者的高活性的抗逆转录病毒治疗的出现减少了床位的占用。

(三)寻找病因的线索

描述性研究的第三个用途是产生关于病因的假设(hypotheses about cause)。

  1. 敏锐的临床医生注意到早产儿保育箱中高浓度的氧与婴儿失明有关,这一发现导致了分析性研究的开始,后来一项随机对照试验确定了这一联系。
  2. 为手表表盘涂镭的妇女癌症的发生率出乎意料的高,这引起了研究者对这一职业性暴露危险的警觉。

(四)优点和缺点

描述性研究有其长处和弱点。数据经常是现成的,因此价廉又高效。而且,很少有伦理的问题。然而,描述性研究也有重要的缺陷。假设的病因及其作用的先后关系可能不清楚,一个危险的陷阱就是研究者可能得出不可能成立的病因推论(causal inferences)。

超越数据/Overstepping the data

  1. 在推论时一个常见的错误是“后此谬误”推理,这是一种错误的病因推论。换句话说,因为时间上的联系错误而判断为有因果关系。

  2. 后此谬误的定义

    • 拉丁文:post hoc ergo propter hoc reasoning
    • 英文:after the thing, therefore on account of the thing
    • 中文:在此之后发生,因之必然由于此

    后此谬误(Post Hoc Fallacy):就是如果A事件出现后,B事件也出现了,就贸然断定“因为A,所以B”或者“只要发生A,必然B”的思维错误。举个简单例子,我吃一个包子,没感觉饱,然后吃第二个直到第五个为止,然后我自己得出结论,“因为吃第一个到第四个包子都不会饱,而吃了第五个包子才饱,所以以后只吃第五个包子就可以了”。

  3. 后此谬误的例子

    25年前,引入胎儿检测与围生期死亡率下降先后发生,其联系使得人们认为持续性胎儿心率监测是一件好事情。甚至,当时的权威人士预测围生期患病率和死亡率将因此下降50%。

    在著名产科医生的美好估计的基础上,这种昂贵的干扰性技术给产科学带来了风暴。然而这一开始很乐观的估计并没有得到科学观察的支持。数年后,一项随机对照试验的荟萃分析显示与常规的间断性听诊相比,常规的电子胎儿检测对婴儿没有持续的好处,而且它使手术接生显著增多,这对妇女是有害的。在此客观的meta分析(meta-analysis)基础上,加拿大定期体检工作组(the Canadian Task Force on the Periodic Health Examination)和美国预防服务工作组(the US Preventive Services Task Force)给常规电子胎儿监测D类建议(有相当的证据反对其常规应用)。尽管有这个建议,在美国大约四分之三的新生儿出生时使用了电子胎儿监测。因为没有认识到描述性研究的不足而造成长时间的伤害,还浪费了几百万美元。

五、结论

  1. 描述性研究常常是对一个新事件或疾病的第一个尝试性研究手段。这些研究一般来说强调一个新的疾病的特点或者评估社区的健康状态。
  2. 卫生决策者采用描述性研究来监测趋势,规划资源分配。
  3. 流行病学家和临床医生一般用描述性研究来寻找疾病的病因线索(如产生假设)。在这一点上,描述性研究常常作为开展更严格的有对照组的研究的跳板。
  4. 描述性研究报告常见的缺点包括缺乏清晰、特定、可重复的病例定义 以及超出资料的解释。没有对照组的研究不能得出关于病因的结论。

一、摘要

  1. 要比较两个总率时,发现两组人群的内部构成(如年龄、性别构成等)存在明显不同,而且影响到了总率比较的结果,这时就不宜再直接比较总率,而应考虑采用标准化法。标准化法的基本思想,就是采用统一的标准(统一的内部构成)计算出消除内部构成不同影响后的标准化率,然后再进行比较。
  2. 在直接年龄调整中(direct age-adjustment),使用常见的年龄结构人口作为标准。这个年龄结构人口可能是实际存在的(例如1999年的美国人口),也可能是虚构的(例如,可以组合两个群体以创建标准人群)。
  3. 在间接年龄调整中(indirect age-adjustment),一组共同的年龄特定比率(age-specific rates)应用于将率标准化的人群。最简单和最有用的间接调整形式是标准化死亡率(SMR)。

二、前言

比较两个或多个不同地理区域的死亡率和发病率对于评估社区健康状况非常重要。由于在不同的人群中可能存在不同的频率分布,因此粗率(crude rates)之间的比较容易产生误导,因为粗率对人群的健康状况的信息不是很全面。需要对在比较中有差异的特征进行标准化。

年龄和性别是两个最常见的用于标准化的变量,它们被称为标准化率(standardized rates)。

粗率与标准化率之间的区别在于,粗率是根据所研究的人群整体计算的,而标准化率则是基于特定的作为标准的特征(particular characteristics)。

如果基于特定特征计算“率”,则将它们称为“特定的率”(specific rates)(例如age-specific mortality rate/特定年龄死亡率)。

本文试图帮助研究者选择和使用合适的标准化方法。有两种计算标准化率的方法,即直接和间接标准化(direct and indirect standardization)。

下面的例子都是围绕基于年龄标准化率(age-standardized rates)的标准化方法。

三、直接标准化

(一)直接标准化的概念与应用条件

  1. 当已知两个或更多人群的特定年龄死亡率(age-specific mortality rates)时,可以应用直接标准化方法。
  2. 直接标准化的思路:调整原因,即人口构成差异。利用标准人口构成调整死亡率。
Figure 1: Concept of direct standardization

(二)直接标准化方法步骤

  1. 计算每个人群中每个年龄组的特定年龄死亡率。

  2. 然后选择其中一个人群作为标准(参考)人群。

    注意:如果将特定人群的死亡率与全国人口进行比较,则全国人口将被视为“标准”人群

  3. 将所研究的其他人群的特定年龄死亡率乘以标准人口的每个年龄组的人数。

  4. 通过这种方式,可以获得每个人群每个年龄组的预期死亡人数(expected death)。将预期死亡总数除以标准人口数(standard population) ,从而得到年龄校正的死亡率(age-adjusted mortality rates)。

  5. 通过比较两个人群的特定年龄死亡率来得出结论。

    Figure 2:Procedure for application of direct standardization method

(三)实例

在讨论粗死亡率时,人群B的死亡率似乎高于人群A。选择全国人口作为参考人群(reference population),因此计算如下:

Table 2:Calculation of expected deaths by applying direct standardization method

预计死亡(expected deaths)总人数:

  • Population A = 1186.18

  • Population B = 1158.99

  • Age adjusted death rate for population A

    \[=\cfrac{1186.18}{51000}\times1000=23.3/1000 population\]

  • Age adjusted death rate for population B

    \[=\cfrac{1158.99}{51000}\times1000=22.7/1000 population\]

  • 当讨论age-adjusted rates时,实际上人群A的死亡风险高于人群B。如果仅仅依靠粗死亡率,你可能会得到误导性的结论。

四、间接标准化

(一)间接标准化的概念与应用条件

  1. 当感兴趣的人群的特定年龄死亡率未知时,只有每个年龄组人口数和观察到的死亡总数时,可应用间接标准化方法。
  2. 间接标准化的思路:调整结果,即死亡率。利用标准死亡率调整粗死亡率。
Figure 3:Concept of indirect standardization

(二)间接标准化的步骤

  1. 选择参考或标准人口。

  2. 计算感兴趣的人群中观察到的死亡人数。

  3. 将所选参考人群的特定年龄死亡率应用于感兴趣的人群。

  4. 将感兴趣人群的每个年龄组中的人数乘以参考人群中相应年龄组中的特定年龄死亡率。

  5. 将每个感兴趣的人群的预期死亡总数相加。

  6. 将观察到的人群死亡总数除以预期的死亡人数。

    Figure 4:Procedure for application of indirect standardization method
    • 观察到的死亡人数与预期死亡人数的比率称为“标准化死亡率”或SMR:\[SMR=\cfrac{观察到的死亡人数}{预期的死亡人数}\]

    • 调整后的死亡率(Adjusted mortality rates,AMR):\[AMR = SMR \times CDR(Standard)\]

      如果应用参考人群的特定年龄死亡率,必须从该参考人群中计算粗死亡率(CDR)。

(三)实例

观察到的人群A和B的死亡情况如下(前提已知条件):

  • Observed deaths in population A = 120
  • Observed deaths in population B = 30

将观察到的死亡总人数除以预期死亡总人数。

  • SMR for population A \(=\cfrac{120}{195.5}\times1000=0.61\)

  • SMR for population B \(=\cfrac{30}{69.5}\times1000=0.43\)

  • 在根据年龄调整差异后,人群A中的死亡风险实际上高于人群B。

五、结论

标准化方法并不困难,但有时研究者对选择哪种方法以及如何计算和应用特定的方法存在一些困惑。真诚希望本文可以提高研究者对标准化方法的理解,从而可以比较两种或更多在某些特征上存在差异的群体。

说明
1. 译自Keith Goldfeld的文章:Be careful not to control for a post-exposure covariate

一位研究人员正在分析不同类型的童年创伤可能对成年时药物滥用产生的影响。显然,这是一个非常有趣且具有挑战性的研究问题。显然,这是一个非常有趣且具有挑战性的研究问题。

统计模型包含了对若干因素的调整。这些因素是童年创伤和药物滥用之间关系可能的混淆因素,如儿童时家境贫穷。然而,该模型还包括对成年时家境贫穷的测量(a measurement for poverty in adulthood) ,认为它在某种程度上混淆了童年创伤和药物滥用之间的关系。

混淆是暴露/治疗(exposure/treatment)与结果(outcome)之间的常见原因(cause)。很难将成年时家境贫穷视为童年时事件(childhood events)的原因(cause),尽管它可能与成年时药物滥用有关(或许无关)。

最多,成年时家境贫穷这个因素被调整控制(control)后,对研究结论没有影响;然而,不太好的是,它可能导致童年创伤的影响小于实际的结果。

使用模拟的数据和潜在结果的抽象概念,我希望能够阐明这种分析引起的一些问题。

潜在的结果与因果效应/Potential outcomes and causal effects

我的目标是提出潜在结果的概念,以便我们能够至少清楚地阐明一种可以定义因果效应的明确方法。

在这个框架下,我们生成模拟数据,从而可以找到因果效应的“真实”测量(“true” measure of causal effect)。然后我们可以使用简单的回归模型来看看他们是否很够很好地重新获得这些“已知”的因果效应。

如果某一个体 \(i\),在儿童期经历了创伤(traumatic effect),我们可以说该个体 \(i\)的暴露(exposure)为 \(X_i=1\),反之,没有经历创伤,则为 \(X_i=0\)。可以认为,每一个个体,都有潜在的结果(possible outcomes) \(Y_{1i}\)\(Y_{0i}\)\(Y_{1i}\) 是指如果个体经历过创伤,我们会观察到的结果。\(Y_{0i}\) 则相反,是指如果个体没有经历过创伤,我们会观察到的结果。

我们定义\(Y\)为结果,\(X\)为原因,则潜在结果的差异为 \(CE_i= Y_{1i} - Y_{0i}\)。如果\(Y_{1i} = Y_{0i}\),即两者的潜在结果相同,那么我们可以说,对于个体 \(i\)而言,\(X\)并不会导致\(Y\)

在现实世界中,我们只观察到一个潜在的结果:与实际暴露相关的结果。

在因果推理领域,对于我们使用观测数据估计平均因果效应所需的假设和条件有很多限制。许多人会说,除非我们使用随机对照研究,否则这些假设不合理。但在使用模拟数据时,我们可以产生潜在结果(potential outcomes)和观测结果(observed outcomes)。因此,我们知道个体水平和平均人口水平的因果效应。同时,我们还可以看到我们的模型拟合得有多好。

Simple confounding/简单的混淆

这是一个相对简单的例子。\(Y\)为结果,\(X\)为原因。还有一个共同的影响因素\(C\)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
library(broom) 
#用于将统计模型的结果整理成数据框形式

library(data.table)
#快速处理大数据集

library(simstudy)

def <- defData(varname = "C", formula = 0.4, dist = "binary")
def <- defData(def, "X", formula = "0.3 + 0.4 * C", dist = "binary")
def <- defData(def, "e", formula = 0, variance = 2, dist = "normal")
def <- defData(def, "Y0", formula = "2 * C + e", dist="nonrandom")
def <- defData(def, "Y1", formula = "0.5 + 2 * C + e", dist="nonrandom")
def <- defData(def, "Y_obs", formula = "Y0 + (Y1 - Y0) * X", dist = "nonrandom")

def
1
2
3
4
5
6
7
##        varname        formula   variance  dist     link
## 1: C 0.4 0 binary identity
## 2: X 0.3 + 0.4 * C 0 binary identity
## 3: e 0 2 normal identity
## 4: Y0 2 * C + e 0 nonrandom identity
## 5: Y1 0.5 + 2 * C + e 0 nonrandom identity
## 6: Y_obs Y0 + (Y1 - Y0) * X 0 nonrandom identity

在上述的例子里,\(X\)\(C\)均对\(Y\)产生了一定的影响。如果我们在评估\(X\)\(Y\)的效应大小时,忽略了因素\(C\),我们会高估这种效应大小(即0.5)。

我们可以生成数据并看到这种情况:

1
2
set.seed(5)
dt <- genData(1000, def)
1
2
3
4
5
6
7
8
9
10
11
12
        id C X       e            Y0          Y1         Y_obs
1: 1 0 0 -2.057757922 -2.057757922 -1.5577579 -2.057757922
2: 2 1 1 1.760077725 3.760077725 4.2600777 4.260077725
3: 3 1 1 -0.610865399 1.389134601 1.8891346 1.889134601
4: 4 0 0 0.009714623 0.009714623 0.5097146 0.009714623
5: 5 0 1 0.176141782 0.176141782 0.6761418 0.676141782
---
996: 996 1 1 -0.147379631 1.852620369 2.3526204 2.352620369
997: 997 0 0 1.336474722 1.336474722 1.8364747 1.336474722
998: 998 0 0 -0.127816908 -0.127816908 0.3721831 -0.127816908
999: 999 0 1 0.022055022 0.022055022 0.5220550 0.522055022
1000: 1000 0 0 -0.292353254 -0.292353254 0.2076467 -0.292353254

我们看到,如果我们能够获得潜在的结果\(Y_{1}\)\(Y_{0}\),那么就很容易获得真正的因果效应,但显然,我们无法获得潜在的结果\(Y_{1}\)\(Y_{0}\)

1
2
3
dt[, mean(Y1 - Y0)] # True causal effect

## [1] 0.5

如果我们比较每个暴露组的平均观察结果而忽略混杂因素(confounder),我们会高估暴露的影响:

1
2
3
dt[X == 1, mean(Y_obs)] - dt[X == 0, mean(Y_obs)]

## [1] 1.285009

我们可以使用简单的线性回归估计相同的效果:

1
2
lm1 <- lm(Y_obs ~ X, data = dt)
tidy(lm1)
1
2
3
##          term  estimate  std.error statistic      p.value
## 1 (Intercept) 0.5515963 0.07325865 7.529436 1.137854e-13
## 2 X 1.2850091 0.10674523 12.038094 2.916261e-31

如果我们调整混淆因素\(C\),我们可以获得\(X\)\(Y\)的真正(或接近)因果效应。

1
2
lm2 <- lm(Y_obs ~ X + C, data = dt)
tidy(lm2)
1
2
3
4
##          term   estimate  std.error statistic      p.value
## 1 (Intercept) 0.08491216 0.06502545 1.305830 1.919117e-01
## 2 X 0.48935880 0.09678110 5.056347 5.083959e-07
## 3 C 2.05729945 0.09825925 20.937464 5.767575e-81

调整暴露后的协变量

在这种情况下,混淆因素\(C\)在两个阶段被测量,同时,暴露在period 1的效应与period 2有关(例如,如果童年时贫穷,成年后就更容易贫穷)。我们关心的是,是否\(X\)(童年创伤)会导致\(Y\)(药物滥用)。困难在于\(C_2\)\(X\)\(Y\)均有关系。

为了充分了解\(X\)对于\(Y\)的效果,我们不能控制\(C_2\)。直觉在于\(X\)对于\(Y\)的部分效应,来源于\(X\)\(C_2\)的作用。如果我们控制了\(C_2\),则移除了因果机制中关键部分。下面是数据生成过程:

  1. 基于暴露因素\(X\)\(C_2\)有潜在的结果。
  2. 我们限制了潜在的结果\(C_{21}\)为1,如果\(C_{20}\)是1的话。例如,如果有人在没有受到童年创伤的情况下,成年后也很穷。我们则会认为,如果他们在童年遭受创伤,他们成年后也会很穷。
  3. \(Y\)的潜在结果,依赖于\(C_2\)的相关潜在结果。\(Y_0\)依赖于\(C_{20}\),而\(Y_1\)则依赖于\(C_{21}\)
1
2
3
4
5
6
7
8
9
10
11
##     varname                  formula variance      dist     link
## 1: C1 0.25 0 binary identity
## 2: X -2 + 0.8 * C1 0 binary logit
## 3: C2.0 -2.0 + 1 * C1 0 binary logit
## 4: C2.1x -1.5 + 1 * C1 0 binary logit
## 5: C2.1 pmax(C2.0, C2.1x) 0 nonrandom identity
## 6: e 0 4 normal identity
## 7: Y0 -3 + 5*C2.0 + e 0 nonrandom identity
## 8: Y1 0 + 5*C2.1 + e 0 nonrandom identity
## 9: C2_obs C2.0 + (C2.1 - C2.0) * X 0 nonrandom identity
## 10: Y_obs Y0 + (Y1 - Y0) * X 0 nonrandom identity
1
2
set.seed(25)
dt <- genData(5000, def2)