说明：
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

观察性研究的偏倚和病因联系

临床医生阅读医学研究时面对两个重要的问题：

报道是否可信？
如果可信的话和我的临床实践有关吗？

对发表的研究不加批判的接受可能导致严重的错误和资源的浪费。

一、摘要

医学文献的读者们需要考虑两种真实性：内部的和外部的。
内部真实性指的是研究测量了计划要做的内容，外部真实性是从这个研究推广到读者的患者的能力。
对于内部真实性，选择偏倚、信息偏倚和混杂是在所有观察性研究中或多或少都会出现的。
选择偏倚是因为两组之间缺乏可比性。
信息偏倚是对暴露、结局、或两者均不正确的测定引起的。
信息偏倚的影响与它的类型有关。如果一组信息的采集与另一组不同就会产生偏倚。与之相比，无差异错分趋向于模糊真实的差异。
混杂是一种对效应的混淆或模糊的作用：研究者试图将一种暴露因素与结局相联系，但实际上却衡量了第三因素（混杂参数）的作用。
混杂可以通过几种方法控制：限定、配对、分层和更复杂的多元分析。
如果读者不能用选择偏倚、信息偏倚或混杂偏倚来解释结果，另一个解释可以是机遇(chance)。即使这些偏倚可以解释假的有显著意义的结果，最后还需要检查机遇。
鉴别假的、非直接的关联与真正的因果关联可能很困难。
因果关系的判断标准中，联系的时间顺序、强度、一致性以及剂量效应关系的证据可以支持病因联系。

二、内部和外部真实性/Internal and external validity

（一）内部真实性

定义：the ability to measure what it sets out to measure/度量它要测量的内容的能力。
从研究参加者获得的推论(inference)应该是准确的，换句话说，研究应该避免偏倚，或者说避免系统误差(systematic error)。
内部真实性是临床研究的必要条件(sine qua non)，不正确结果在更大人群中的推广不仅是不值得的也是危险的。

（二）外部真实性

从研究参加者得出的结果能否推广到读者的病人？
对医学研究来说，进行全体人口普查常常是不可能的，习惯性的策略是选择一个样本进行研究，并希望将结果外推到实践中去。
评估外部真实性比内部真实性更主观一些。

（三）两者的权衡/trade-offs

随机对照试验(randomised controlled trials)比观察性研究更可能避免偏倚，但由于它们常常纳入选择过的病人，外部真实性会受到影响。
- 这种参加者不合适(unsuitable participants)的问题称作曲解的组合(distorted assembly)
在随机对照试验中，参加者和不参加的人是不同的（比如前者更健康)。这也是严格的纳入标准的限制作用。

三、偏倚/Bias

偏倚(bias)削弱了研究的内部真实性。在研究中的偏倚表示与真相的偏离。所有的观察性研究(以及许多比较差的随机对照研究）有固有的偏倚，对调查者、编者和读者的挑战是把它们找出来并且判断它们有没有影响到结果。

（一）在观察性研究中寻找什么

选择偏倚存在吗？
- 在队列研究中，暴露组和非暴露组中的参加者除了暴露因素外，在所有其他的重要方面类似吗？
- 在病例-对照研究中，病例组和对照组除了研究的疾病外，在其他的所有重要方面类似吗？
信息偏倚存在吗？
- 在队列研究中，暴露组和非暴露组是用同样的方法获得结局的信息吗？
- 在病例-对照研究中，病例组和对照组是用同样的方法获得关于暴露因素的信息吗？
混杂因素存在吗？
- 结果能够用一个与暴露和结局都相关但又不在因果通路(causal pathway)上的因素(如年龄、吸烟、性行为、饮食等)来解释吗？
如果结果不能用以上三种偏倚来解释，那会不会是机遇(Chance)的结果呢？
- 相对危险度或比值比及其95%可信区间是多少？
- 差异有统计显著性吗？如果没有，那研究有没有足够的效力(adequate power)来发现临床上重要的差异？
如果以上分析都不能解释结果,那这时(也只有这时)可以说发现可能是真的，值得关注。

（二）偏倚的分类

按照研究过程出现的次序分为四类：
- 易感性偏倚(susceptibility bias)指的是基线特征的不同
- 实施偏倚(performance bias)指的是处理的不同熟练程度
- 测量偏倚(detection bias)是对结局的不同测量
- 转移偏倚(transfer bias)则是差异性失访
按照偏倚主题的不同分为三类：
- 选择偏倚(selection bias)
- 信息偏倚(information bias)
- 混杂偏倚(confounding)

（三）选择偏倚(selection bias)

各组在所有重要的方面都相似吗？

选择偏倚来源于所研究的各组间缺乏可比性。

在队列研究中，暴露组和非暴露组除了暴露因素外在某个重要方面存在不同。
- 成员偏倚(membership bias)：选择成为一个组的成员的人(如慢跑锻炼者)可能在一些重要的方面与其他人不同。
  - 举个例子来说，队列研究和病例-对照研究起初显示心肌梗死后慢跑可以预防心肌梗死的再发生。然而，随机对照研究不能确定这种益处。那些选择锻炼的人可能在其他重要的方面与选择不锻炼的人不同，比如饮食、吸烟和是否存在心绞痛。
在病例-对照研究中，选择偏倚表示病例和对照除了所研究的疾病外还有重要的不同。
- Berkson偏倚/Berkson悖论/纳入偏倚(admission-rate bias)：病例和对照的医院入院率不同造成的
  - Berkson起初认为这种现象是因为有同时存在的其他疾病所致
  - 对所感兴趣的暴露因素的认识也可能提高入院率
    - 例如，关注患有输卵管炎女性的医生更可能建议那些使用宫内节育器而不是使用口服避孕药的妇女住院治疗。在以医院为基础的病例-对照研究中，这样会预先造成高比例的暴露于宫内节育器的病例，虚假抬高比值比（住院的输卵管炎女性患者中，使用宫内节育器的比例虚假增高）。
- Neyman偏倚：是一种发病-患病偏倚(incidence-prevalence bias)，当暴露和选择研究参加者之间存在时间差时就会产生。
  - 这种偏倚在研究迅速致命、暂时的或者亚临床的疾病时会不期而至。Neyman偏倚产生了不能代表大众病例的病例组。
  - 例如以医院为基础的关于心肌梗死和铲雪(感兴趣的暴露因素）的病例-对照研究可能错过在赶往医院途中就死亡的人，他们永远不能活着到达医院，从而可能极大地降低心肌梗死与这种费力的活动关系的比值比（心肌梗死的病例组中铲雪活动虚假减少）。
其他类型的选择偏倚
- 暴露(检出信号)偏倚/unmasking(detection signal) bias
  - 暴露因素除了可能导致结局本身之外还会导致寻找这个结局的过程。
  - 例如,雌激素替代治疗可能导致无症状子宫内膜癌患者出血，结果启动了相关诊断的检查。在这个例子中，暴露因素使亚临床癌症被发现，导致比值比虚假的上升。
- 无应答偏倚/non-respondent bias
  - 在观察性研究中,无应答者不同于应答者。
  - 吸烟者就是一个例子：吸烟者不大可能会像非吸烟者、吸烟斗和雪茄的人那样归还调查表。

（四）信息偏倚(information bias)

有没有用同样的方法收集信息?

信息偏倚，亦被称作观察偏倚(observation bias)、分类偏倚(classification bias)或测量偏倚(measurement bias)，源于不正确地确定暴露因素或结局，或者两者均而有之。 > 例如，一个调查者可能在床旁收集一个病例关于暴露因素的信息，但仅通过电话收集社区对照者的信息。

在队列研究或者随机对照试验中，暴露组和非暴露组中应该用同样的方法获得关于结局的信息。

病例-对照研究中，应该在病例和对照中用同样的方式收集关于暴露因素的信息。

为了减小信息偏倚，应该由不知道应答者是病例还是对照的人来采集暴露因素的细节。同样，研究主观结局的队列研究中，观察者应该不知道每一位参加者的暴露状态。

信息偏倚产生的方式

诊断怀疑偏倚(Diagnostic suspicion bias)：指对于疾病的假设病因的了解，可能启动在暴露者中对于是否存在该病更强的检测
- 例如偏向在静脉注射毒品的人中查找HIV-1感染的情况。
- 一种疾病的存在可能使得人们加强寻找所研究的感兴趣的暴露因素。
家族史偏倚(family history bias)：医学信息的传递在感染和非感染的家族成员中是不一样的。
- 类风湿性关节炎
回忆偏倚(recall bias)：患者趋向于努力搜寻他们的记忆来分辨什么可能导致了他们的疾病，而健康对照者则没有这个动力。

信息偏倚是随机的还是朝向一个方向

如果一个组的信息收集和另一个组不同，偏倚就会出现，结果造成相对危险度或者比值比上升或下降，随偏倚的方向而不同。
无差异错分/non-differential misclassification(系统噪音)趋向于模糊真正的差别。
- 模棱两可的问卷可能导致对病例和对照收集数据的错误，使比值比趋向1，意味着没有关联。

（五）混杂偏倚(confounding)

有没有外来因素干扰了相互作用？

混杂(confounding)是一种对作用的混淆或干扰。研究者试图将一种暴露因素和结局相联系，但事实上测量了第三个因素的作用，称为混杂变量(confounding variable)。混杂变量与暴露因素有关并影响结局，但不在暴露因素和结局的因果关系作用链过程中。更简单地说，混杂是方法学上的美中不足。
口服避孕药和心肌梗死以及吸烟的例子

早期关于口服避孕药的安全性研究报道称它可以显著增加心肌梗死的危险性。这一关联后来证实是错误的，因为用避孕药的人中吸烟者的比例很高。吸烟在这里就干扰了口服避孕药和心肌梗死的联系。用避孕药的女性也在很大数量上选择吸烟，而吸烟增加了心肌梗死的危险性。尽管调查者认为他们衡量的是避孕药的影响，但事实上测量了服药者隐含的吸烟的作用。
我们对人类生物学认识的不足不可避免地限制了对混杂的控制。未被考虑到的混杂因素也会在观察性研究中逃避控制。

四、控制混杂

如果研究中存在选择偏倚或信息偏倚，就会不可弥补地影响结果。内部有效性是注定受影响的。

但如果存在混杂，这种偏倚是可以纠正的，前提条件是预计到混杂因素，而且已经收集了必要的信息。

可以在研究完成前或后控制混杂，这些方法的目的是使研究组间达到一致性(同质性/homogeneity)。

（一）限制/Restriction

也称为排除因素(exclusion)或者规定(specification)。例如，吸烟可能是一个混杂因素，可以在研究中只纳入非吸烟者。尽管这一策略避免了混杂，但也阻碍了招募过程(及效力power)，妨碍了结果外推到吸烟者。限制牺牲了外部真实性，可能增加研究的内部真实性。

（二）配对/Matching

另一个控制混杂的方法是两两配对(pairwise matching)。在吸烟注定是一个混杂因素的病例-对照研究中，病例和对照可以在吸烟状态方面配对：对每一个吸烟的病例可以找到一个吸烟的对照。
这一方法尽管很常用但有两个缺点。
- 如果在几个潜在的混杂因素方面进行配对，纳入过程会很困难
- 而且从定义就可以知道，不能研究被配对的变量

（三）分层/Stratification

分层可以看做是后限制(post hoc restriction)，不是在研究的自然过程中而是在分析过程进行。
例如，结果可以根据混杂因素来分层。以吸烟为例，吸烟者和非吸烟者可以分别计算，来看看结果是否相同而独立于吸烟状态。
Mantel-Haenszel法将各层的数据合并形成一个总的统计值来代表效应。各层的权重与其方差呈反比（比如数量大的层比数量少的权重大)。如果Mantel-Haenszel校正的效应明显与粗效应(crude effect)不同，肯定存在混杂。在这种情况下，认为校正的效应估计值更好。
混杂并不总是直观的。
- 假设2000位女性参加的队列研究，使用宫内节育器与输卵管炎显著相关
  - 相对危险度为3.0
  - 95%可信区间为1.7~5.4
- 然而，性伴侣的数目与女性选择避孕以及上生殖道感染相关
- 有一个以上性伴侣的女性以更高比例选择宫内节育器
  - 和只有一个性伴侣的女性相比为700:300
- 伴侣的数目也与感染的危险性相关
  - 有一个以上伴侣的人为6%，而只有一个伴侣的则为1%
- 按伴侣数目进行分层，每一层的相对危险度为1.0。提示宫内节育器与输卵管炎无关。
- 控制了这一混杂作用后
  - Mantel-Haenszel加权的相对危险度为1.0
  - 95%可信区间为0.5~2.0
- 在这个例子中，危险性呈3倍升高完全是混杂偏倚造成的。

（四）多元分析/Multivariate techniques

用数学模型在控制多个其他变量的效应的同时，评价一个变量的潜在效应(potential effect)。
其显著的优点是可以比分层法控制更多的因素。
- 例如，研究者可以用多元logistic回归来研究口服避孕药对卵巢癌危险性的作用。这样，研究者可以同时控制年龄、种族、家族史、产次等。
- 另一个例子是将比例风险回归分析用于死亡时间，这种方法能够同时控制年龄、血压、吸烟史、血脂和其他危险因素。
对一些研究者来说，多元方法的缺点包括理解结果比较困难以及不能对数据进行手算。

五、机遇/Chance

如果读者不能在选择偏倚、信息偏倚或者混杂偏倚的基础上解释结果，机遇(chance)可能是另一个解释方法。
之所以先检查偏倚后检查机遇是因为偏倚很容易就可导致非常显著的(尽管是假的)结果。非常遗憾的是很多读者用\(p\)来判断有效性，而不考虑其他更重要的因素。
著名的\(p\)测量的是机遇(chance)。它给读者关于假阳性结果的可能性：即，在本研究中观察到差异，但在更大人群中不存在的可能性（I类错误)。
将0.05的\(p\)作为阈值在医学上是没有基础的。它是从20世纪初的农业和工业试验中产生的。
如果研究结果的\(p\)没有达到这个水平，研究者要看看研究是否有足够的效力来发现临床重要的差异。许多“阴性”研究只是因为参加者太少。
研究者最好使用可信区间(confidence intervals)而非假设检验(hypothesis tests)的方式来展示关联。

六、判断关联

统计上有联系并不一定意味着有因果联系

（一）假关联(false cause,spurious associations)

选择偏倚、信息偏倚和机遇造成的

（二）间接关联(indirect associations)

间接关联(来源于混杂)是真的、但不具有因果关系的关联。

（三）因果关联(causal associations)

Hill提出的判断因果关系的标准

时间顺序/Temporal sequence
- 暴露因素是不是在结局之前？
关联的强度/Strength of association
- 用相对危险度或者比值比来衡量的话，作用的强度怎么样？
关联的一致性/Consistency of association
- 其他人是否观察到这种作用？
生物梯度(剂量-反应关系）/Biological gradient (dose-response relation)
- 增强的暴露因素是否使结局增加？
关联的特异性/Specificity of association
- 暴露因素是否只导致这一结局？
生物学可靠性/Biological plausibility
- 这一关联有道理吗？
与现有的知识的连贯性/Coherence with existing knowledge
- 这种关联与已知的证据一致吗？
实验性证据/Experimental evidence
- 做过随机对照试验吗？
类似/Analogy
- 这一关联与其他关系有类似的情况吗？

Hill标准的可行性

唯一坚实的标准是时序性：病因必须早于其作用。然而，在研究中，特别是关于慢性疾病的研究，这一鸡和蛋的问题常常令人退缩。
有人提出,在队列研究中相对危险度在3以上，或者病例-对照研究中比值比在4以上则能够提供对于病因联系的有力支持。
在对不同人群进行的不同的研究设计中，如果观察到一致的关联也支持真的关联。
- 例如，世界各地的研究结果一致表明口服避孕药对患卵巢癌有保护作用，这就支持一种病因联系。
生物梯度的证据也支持病因联系。
- 肺癌死亡的危险性与吸烟的年数线性相关(增加的暴露与增强的生物学作用相关)

Hill标准的不可行

特异性是一个弱的标准。很少有暴露只导致一个结局，仅有一些例外，如狂犬病毒。如果一个联系是高度特异性的，也支持其为因果联系。由于许多暴露(如吸烟）导致很多结局，缺乏特异性，但并不能反对病因联系。
生物学可靠性是另一个弱的标准。300年前临床医生们反对关于柑橘类水果可以预防坏血病的想法。
与研究的关联(association)有一致性的辅助生物学证据可能是有帮助的。
- 例如，吸烟对动物支气管上皮的作用与人类癌症增加的危险性一致。
实验性证据往往阙如。
类推有时是有害的。沙利度胺会导致出生缺陷，有些律师(成功地)提出广泛使用的妊娠止吐药盐酸双环胺也可导致出生缺陷这一类推结论，尽管证据支持相反的结果。

七、结论

研究需要内部真实性和外部真实性：结果应该是正确的，而且能够外推到人群中。
关于偏倚的简单的列表(选择、信息和混杂)和机遇能够帮助读者解读研究报告。
如果研究中出现了统计学关联，判断关系的指南能够帮助读者判断关联是假的、间接的还是真的。

高山流水

临床研究基本概念：观察性研究（二）