说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research
一、摘要
- 根据研究者是否分配暴露因素将临床研究分为两大类:实验性和观察性。
- 实验性研究也可再分为两类:随机和非随机研究。
- 观察性研究可以是分析性的,也可以是描述性的。
- 分析性研究的特点是有一个比较(对照)组,而描述性研究则没有
- 在分析性研究中,队列研究追踪人群的时间方向是从暴露到结局。病例-对照研究与之相反是从结局回溯到暴露。横断面研究像一次快照,同时检测暴露和结局。
- 描述性研究,如个案报告则没有对照组。在这类研究中,研究者不能检测两者的因果关系,这是一个常常被遗忘或忽略的事实。
- 对相关性(association)的测量,如相对危险度或比值比。是常用的表达二分类结局(如患病和健康)的方法。相对危险度或比值比的可信区间提示了结果的精确性。
- 相关性测量(相对危险度或比值比)的可信区间显示了作用的强度、方向和可能的范围以及机遇发生的概率。与此相反,P仅表示机遇的大小。武断地用0.05的P来检验无效假设(Testing null hypotheses)是没有医学基础的,也不应该鼓励。
二、临床研究的分类
Scientific illiteracy is a major failing of medical education.
科学无知是医学教育的主要问题。
(一)临床研究的分类方法
- 没有对照组的研究称为描述性研究。
- 最下端是个案报告(case report)
- 当报告的患者超过一个时,就称为病例系列报告(a case-series report)
(二)临床证据的分级/Rating clinical evidence:Assessment system of the US Preventive Services Task Force美国预防服务工作组评估系统
证据质量/Quality of evidence | |
---|---|
I | Evidence from at least one properly designed randomised controlled trial.来自至少一个设计良好的随机对照临床试验中获得的证据 |
II-1 | Evidence obtained from well-designed controlled trials without randomisation.来自设计良好的非随机对照试验中获得的证据 |
II-2 | Evidence from well-designed cohort or case-control studies, preferably from more than one centre or research group.来自设计良好的队列研究或病例对照研究(最好是多中心研究)的证据 |
II-3 | Evidence from multiple time series with or without the intervention. Important results in uncontrolled experiments (such as the introduction of penicillin treatment in the 1940s) could also be considered as this type of evidence.来自多个时间序列的、带有或不带有干预的研究得出的证据。重要的非对照试验(例如19世纪40年代青霉素的引入)的结果有时也可作为这一等级的证据。 |
III | Opinions of respected authorities, based on clinical experience, descriptive studies, or reports of expert committees.来自临床经验、描述性研究或专家委员会报告的权威意见 |
推荐强度/Strength of recommendations | |
---|---|
A | Good evidence to support the intervention.良好的科学证据支持该干预行为 |
B | Fair evidence to support the intervention.尚可的证据支持该干预行为 |
C | Insufficient evidence to recommend for or against the intervention, but recommendation might be made on other grounds.没有足够的依据推荐或反对该干预行为,但在其他情况下可能会推荐 |
D | Fair evidence against the intervention.尚可的科学证据反对该干预行为 |
E | Good evidence against the intervention.良好的证据反对该干预行为 |
三、研究可以做什么,无法做什么
研究设计与研究问题是否匹配/Is the study design appropriate for the question?
(一)描述性研究/descriptive study
- 描述性研究可以阐述发病率(frequency)、自然病程和可能的决定因素(possible determinants of a condition)。这些结果显示多少人在一定时间患该病或发生某种状态,描述疾病和患病者的特征,并产生关于疾病的假设。这些假设可以通过更严格的研究来评价,如分析性研究或随机对照试验。
- 描述性研究没有对照组,不能用来评估因果关系(associations)。只有对照研究(分析性研究和实验性研究)才能够评估可能的因果关系。
(二)横断面研究(cross-sectional study):特定时间的快照
别名:频率调查(frequency survey)/现况研究(prevalence study)
横断面研究用来检测在特定时间点上,疾病和某个暴露因素,两者的存在与否。这样,焦点是患病,而不是发病。因为结局和暴露在同一时间被确定,这两个的时间关系可能不清楚。
例如假设横断面研究发现有关节炎的女性比没有关节炎的女性肥胖更常见。是增加的体重负担导致关节炎还是有关节炎的女性不得不减少活动然后出现肥胖呢?这种问题在横断面研究中是无法回答的。
典型案例:检测心肌梗死男性患者收治入院时的血清胆固醇和他们的隔壁邻居的血清胆固醇。这种类型的研究同时提供了人群的瞬时疾病和健康状况。
(三)队列研究(cohort study):从暴露到结局
- 调查者确定一组暴露于感兴趣的因素的人群和一组或多组不暴露的人群,然后随访暴露组和非暴露组一段时间来观察结局。如果暴露人群比不暴露人群有较高的结局发生率,那么暴露因素与该结局的高危险性相关。
- 优点
- 暴露因素在一开始就确定,可以认为暴露因素比结局发生要早,就不必像在病例-对照研究中那样考虑回忆偏倚(recall bias)。
- 队列研究可以计算真正的发病率(true incidence rates)、相对危险度(relative risk)和归因危险度(attributable risks)。
- 缺点:但对于罕见事件或需要很多年才发病的疾病,这种类型的研究需要很长时间才有结果,因此费用非常高。
- 典型案例:从一项暴露开始(如口服避孕药),然后随访女性数年来评价其结局(如卵巢癌),那它肯定是队列研究。队列研究可以是同期的,也可以是非同期的(即前瞻性和回顾性队列研究)。
(四)病例-对照研究(Case-control study):从结局到暴露
- 研究者定义一组有一种结局(如卵巢癌)的人群和一组没有该结局的人群(对照),然后通过调查表、面谈或者其他方式确定两组人群某一危险因素的暴露情况(如口服避孕药、促排卵药物)。如果暴露因素在病例中的发生高于对照组,暴露因素与该结局的高危险性有关。
- 优点:省钱、省时
- 缺点:
- 选择合适的对照组比较困难。除了研究的结局外,对照应该是在其他所有重要的方面都与病例类似。不合适的对照破坏了很多病例-对照研究,并产生错误的结果。
- 回忆偏倚(recall bias)(病例组比对照组对暴露因素的回忆更好)始终是依靠记忆研究的难题。
- 因为病例-对照研究缺乏分母,调查者不能计算发病率(incidence rate)、相对危险度(relative risk, RR)以及归因危险度。
- 但可以用比值比(odds ratio, OR)评价其相关性。当结局是不常见的时候(如绝大多数癌症),比值比可以很好地代表相对危险度。
- 典型案例:食物造成的疾病暴发。在游船上,呕吐腹泻的患者和没有生病的人都会被问及食物因素。如果生病的人中吃某一种食物的比例高于 未生病的人,这种食物就可疑了。
(五)非随机试验(non-randomised trial)
有些实验性研究不是随机将参加者分到暴露组中的(如治疗或预防策略研究)。和真正的随机不同的是,研究者常常用不够标准的方法,如交替分配(alternate assignment)。
交替分配:在一项试验中采用月份交替的方法来分配产妇的电子胎儿监测情况(一个月自由检查,另一个月限制检查)
美国预防服务工作组和加拿大定期体检工作组(Canadian Task Force on the Periodic Health Examination)指定这种研究设计为II-1类,认为这种设计虽然不如随机试验严谨,但比其他分析性研究好。
在研究者将参加者分配到各治疗组中后,非随机试验就像队列研究一样实施和分析。暴露和未暴露的人随访一段时间以确定结局发生的频率。
优点
- 有对照组
- 对照组和治疗组,在确认结局上有统一的标准。
缺点:可能存在选择偏倚
(六)随机对照试验(randomised controlled trials):金标准
- 是临床研究中避免选择偏倚和混杂偏倚(confoundiiig biases)的唯一方法。
- 随机对照试验的标志是:参加者分配到暴露因素中纯粹是随机的。
- 随机对照试验降低了确定结局时偏倚的可能性。如果正确的设计和完成,随机对照试验有可能避免偏倚,这样,对检验轻微的和中等程度的作用特别有效。在观察性研究中,偏倚很容易产生小的和中等程度的差异。
- 只要正确完成,随机分配可以杜绝选择偏倚(selection bias)
- 随机对照试验对于结局有统一的诊断标准,而且常常对参与者使用盲法,这样,减少了信息偏倚(information bias)
- 随机对照试验独一无二的优势是消除混杂偏倚(confounding bias),包括已知的和未知的。
- 随机对照试验的缺点
- 外部真实性(external validity):表示结果是否可以推广到更大区域或范围的程度。如果正确的实施,随机对照试验有内部真实性(internal validity)(它按计划进行了检测),但可能没有外部真实性。与观察性研究不同的是,随机对照试验只纳人通过筛查程序的志愿者。志愿参加试验的人与其他人有差异,比如,他们的健康状况可能比较好。
- 随机对照试验中有些情况下是不适用的,因为故意暴露于危险状态(如毒素、细菌或其他有害因素)是不道德的。
- 随机对照试验费用相当高
四、结局的测量
(一)术语
比值(ratio)
- 是一个数目除以另一个数目得到的值。
- 这两个数目可以相关也可以不相关。
- 这一特点(分子和分母的相关性)将比分为两种:
- 分母包含分子
- 分母不包含分子
- 产妇死亡比:死于妊娠相关的病因的妇女为分子,活产的母亲(常常用100000)为分母。然而,不是所有的分子都包含在分母中(比如,死于异位妊娠的妇女不可能被包含在活产的母亲中)
率(rate)
- 率(rate)考量的是人群中事件的频率
- 率的分子(发生结局的人数)必须包含在分母(有发生结局这一危险的人数)中
- 率包含时间成分。
- 发病率(incidence rate):表示在特定的时间段中处于危险的人群中新发病例的数目(比如11个结核病例/100000人/年)。
比例
- 比例(proportion)常用作率的同义词,但前者不含有时间成分。
- 比例和率一样必须分母含有分子。因为分子和分母的单位相同,他们相除后得到没有维度的数值,一个没有单位的数目。
- 例如患病比例(每100个处于危险的人中27个患枯草热)。这一数值表示处于危险的人群中有多少人在特定的时间中处于某种状态(这里是27%)。因为没有记录某段时间的新发病例,把患病率(prevalence rate)看作比例(而不是率)更合适。
五、相关性(association)的测量
(一)相对危险度(relative risk,RR)
- 定义:暴露组中发生结局的频率除以非暴露组中结局的频率。
- 解释
- 如果结局在两组中的频率是相同的,比值为1.0,表示暴露与结局没有关联
- 如果结局在暴露组中更频繁,比值就大于1.0,提示暴露与危险性增加相关
- 如果疾病频率在暴露组中低,相对危险度就会小于1.0,提示一种保护性作用
(二)比值比(odds ratio,OR)/交叉乘积比(cross-products ratio)/相对比值(relative odds)
是病例-对照研究中常用的衡量相关性的方法
- 定义:在病例组中暴露的可能性除以对照组中暴露的可能性。
- 解释
- 如果病例组和对照组暴露的可能性相等,比值比为1.0,提示没有意义
- 如果病例组暴露的可能性高于对照组,比值就高于1.0,提示暴露与危险性增高有关
- 比值比低于1.0提示保护性作用
- 横断面研究、队列研究和随机对照研究中也可以计算比值比。
- 疾病比值比是暴露组中发生疾病的可能性除以非暴露组中发生疾病的可能性
- 在这种情况下,如果在荟萃分析中汇集研究的时候,比值比就有一些吸引人的统计学特点
- 但当结局发生的比例大于5%〜10%的时候,比值比不能代表相对危险度(例如,发病率高的时候这一术语没有什么临床关联和意义)
(三)可信区间(confidence intervals)
- 可信区间反映了研究结果的精确性,提供了一个参数(如比例、相对危险度或者比值比)的数值范围,表示了含有来自于整个人群的研究样本的真实值的可能性。
- 尽管95%可信区间是最常用的,其他的,如90%可信区间也可以见到。
- 可信区间越大,结果的精确性越差,反之亦然。
- 对相对危险度和比值比来说,当95%可信区间不包括1.0时,在常用的0.05水平差别有显著性。但是,将可信区间的这一特性作为假设检验的内推方法是不合适的。