说明:
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research
筛查试验的应用与误用
一、摘要
- 筛查试验在现代医学实践中普遍存在,但筛查的原理却被广泛误解。
- 筛查是在无症状人群中发现有某种疾病的高危人群。
- 虽然早期诊断颇具吸引力,但并不是越早越好,或在花费上是值得的。
- 四个指标描述了筛查试验的真实性:灵敏度、特异度、阳性预测值和阴性预测值。
- 对于连续性变量的试验(如血糖),灵敏度与特异度呈反比关系,其异常临界点的选值应考虑假阳性和假阴性结果的临床效应。
- 患病率可以影响筛查试验的效力:在患病率低的人群,即使非常好的试验,其阳性预测值仍很低。因此,对疾病患病率的了解是解释筛查试验结果的先决条件。
- 筛查试验经常是序贯进行的,例如梅毒和HIV-1感染。
- 领先时间偏倚和病程长短偏倚可能影响筛查试验的结果。
- 随机对照试验是唯一能避免这些偏倚的试验。
- 筛查能改善健康,如强烈的间接证据表明宫颈癌的死亡率下降与开展宫颈细胞学筛查项目有关。然而,不恰当的应用和解释筛查试验亦可能剥夺受试者的健康、启动创伤性的诊断试验以及浪费医疗卫生资源。
二、伦理学意义
哪些是筛查试验潜在的危害?
筛査(Screening)是一把双刃剑,有时意图是好的,但应用得可不漂亮。筛查是指在无症状人群中辨认出有某种疾病的高危人群。有时可对被筛查出来的人进行后续诊断试验,有时直接予以治疗或预防措施。找出已有临床问题的人所患的疾病称为发现病例(case finding),而筛查仅限于无症状人群。
筛査能改善健康:
- 强的间接证据(strong indirect evidence)支持宫颈细胞学筛查有利于宫颈癌的发现
- 在成年人中筛查高血压、乙肝病毒抗原
- 孕妇筛查HIV-1和梅毒螺旋体(syphilis)
- 孕12〜16周常规进行尿培养
- 新生儿筛查苯丙氨酸(phenylalanine)
不恰当的筛查亦可危害健康人群和浪费宝贵的资源:
- 美国开展妊娠糖尿病的产前全面筛查(一种寻找疾病的诊断)例证了对筛查本质和目的的普遍误解。
(一)筛查与其他传统临床试验的不同
- 通常,患者向临床医生咨询不适症状和问题,这些信息可帮助肯定或排除某种诊断。
- 因为患者非常痛苦,向我们寻求帮助,所以试验的风险和费用最终往往能被患者接受。
- 筛查的对象往往是不需要医学帮助的健康人群(他们更乐于不被打扰)。
- 另一方面,消费者对于筛查的需求,如骨质疏松和卵巢癌等筛査项目,可能导致昂贵的费用和并不确切的结果。因此,与筛查相关的费用、损伤和抱怨是极其重要的(虽然经常被忽视)。
- 筛查的医学和伦理学标准应该比诊断试验更严格。坦率地说:所有筛查的副作用都是医源性的,而且是完全可以预防的。
(二)筛查有害的方面常被忽视
- 可能不方便:奥沙利文O’Sullivan筛查妊娠糖尿病)
- 令人不愉快:肠镜(sigmoidoscopy or colonoscopy)
- 价格昂贵:
- 乳腺摄片(mammography)
- 例如,Markov模型揭示新的宫颈癌筛查试验比宫颈涂片检査更灵敏(因此,被介绍为更好),但大大增加了发现癌症患者的平均费用。可以想象,危险度最高的贫穷妇女将不能接受更高的支出,净效应将导致更多癌症的发生。
- 继发损害:假阳性(false positive)和真阳性(true
positive)结果可能引发危险的干预措施。虽然正确诊断为患者所带来的继发损伤是可以被接受的,但被误诊的健康人也将遭受相同的危害。
被诊断为高血压的钢铁工人不管是否进行治疗,都将导致缺勤的增加,和病人角色的自我认同(adoption of a sick role)。
近期报道显示,在被诊断为妊娠糖尿病后的5年间,妇女会认为她们自己及其婴儿的健康状况在明显恶化。
临床医生有什么权利来剥夺人们期望的健康?又能从中得到什么?
- 筛查还能导致创伤性的治疗:几十年前,氯贝丁酯(clofibrate)治疗高脂血症就是一个令人冷静思考的例子。
- 胆固醇升高(危险因素,而不是疾病本身)的治疗不经意间导致了服药的中年男性死亡率上升了17%。仅仅在美国,这场筛查事故夺走了超过5000名男性的生命。
因为这些不幸事件,一些筛查的总结指南提出临床医生对于筛查的选择应该更严格谨慎。
三、筛查标准
如果一个试验有条件(available)开展,它是否应该被应用?
(一)筛查的三个标准
筛查试验的可获得性(availability)并不意味着它应该被实施。
- 疾病(disease)
- 疾病应具有临床重要性及清楚的定义
- 很好地获知其患病率(prevalence)
- 应了解自然病程
- 存在有效的干预
- 政策(policy)
- 筛査试验必须费用合理、诊断容易
- 治疗方法必须已经能实行
- 阳性结果的后续措施必须已普遍达成共识,并为被筛查者接受
- 试验(test)
- 试验必须行之有效
- 安全的
- 有合理且明确定义的临界值(cut-off level)
- 具有真实性(valid)和可靠性(reliable)
- 真实性(validity)
- the ability of a test to measure what it sets outto measure
- 通常用于鉴别有病和无病
- 可靠性(reliability)
- 可重复性
- 例如,浴室的磅秤比医院的(金标准)恒定重2公斤,这提供了不真实但可靠性高的结果
- 真实性(validity)
(二)筛查越早越好么?
- 虽然主观上需要早期诊断,但并不一定是越早越好。例如,在缺乏有效治疗的情况下,能从阿尔茨海默病的早期诊断中获得什么收益(以及花费多少)?
- Sackett及其研究小组已经提出富有实效的条目表(checklist)来帮助决定什么时候(或是否)值得付出时间、金钱和精力去寻找比一般情况更早的诊断。这些问题包括:
- 早期诊断真的能给被筛查者带来收益,如生存或生命质量吗?
- 临床医生能否利用另外的时间来明确诊断和处理那些症状还没有出现的被诊断的患者?
- 那些更早期获得诊断的患者能否依从治疗方案?
- 筛查策略能否被客观地确定其有效性(effectiveness)?
- 试验的费用(cost)、准确性(accuracy)和可接受性(acceptability)能否被临床接受?
四、试验有效性的评估
试验是否真实?
(一)评价试验真实性的四个指标
半个多世纪以来,4个代表试验真实性(validity)的指标被广泛应用:
- 灵敏度(sensitivity):找出患者
- 特异度(specificity):找出健康者
- 阳性预测值和阴性预测值(predictive values of positive and negative)
虽然在临床上很有用(比临床预感更有说服力),但基于特定假设的这些术语经常被认为是不切实际的(如所有的人群被二分为有病和健康)。
事实上,对流行病学家的某种定义就是一个透过\(2\times2\)表格观察整个世界的人。那些被测试者并不能简单且完美地适用这些名称:他们可能有病、早期患病、可能健康或其他一些不同的情况。
适用于多种试验结果(不是只有二分类结果)的似然比(Likelihood ratios),有助于临床医生完善对特定患者疾病可能性的判断。
为了简单说明,现假设已完成测试的人群被分配到一个格 与格之间相互排斥的四格表中。
- 灵敏度有时被称为检出率(detection rate),是一个试验能发现疾病的能力。所有有病的人群在左列。因此,灵敏度是指被试验正确识别的患病人群(a)除以所有患病的人群(a+c)。
- 特异度显示的是试验识别无病状态的能力。特异度的分子是单元格d(真阴性),除以所有的正常人群(b+d)。
虽然公共卫生政策制定者对灵敏度和特异度很感兴趣,但临床医生很少应用。换言之,无论是灵敏度还是特异度(人群测试)都是回顾性的(需要一定时间收集试验结果)。然而,临床医生不得不对受试者的结果进行解释。因此,他们需要知道的是试验的预测值predictive values(个体测试、前瞻性)。
评价预测值,需要旋转90°观察:预测值在水平(行)而不是垂直(列)上起作用。
- 上面一行是试验结果阳性的人群,但只有单元a是患病的,所以,阳性预测值是\(\cfrac{a}{a+b}\)
- 阳性结果的比数(odds of being affected given a positive
result,OAPR)是指真阳性与假阳性的比,即\(\cfrac{a}{b}\)
- OAPR的倡导者认为这些比数(odds)与概率(probabilities) (预测值/predictive values)相比能更好地描述试验的有效性(test effectiveness)。
- 下面一行,在阴性结果的人群中,仅有单元格d是无病的,所以,阴性预测值是\(\cfrac{d}{c+d}\)
在临床训练中,学习(和迅速忘记)这些公式对于我们中的大多数人来说是每年例行的过程。如果阅读者理解了上述的这些定义,并能回想起\(2\times2\)表格,那么他们就能迅速明白什么时候需要这些公式。我们可以这样去记忆,疾病出现在表格的顶部,因为这是我们首先要关注的,在默认情况下,试验在表格的左侧。
(二)将四个指标简化的尝试
- 在过去的几年里,研究者试图简化这四个试验真实性(test validity)的指标,将它们浓缩为一个独立的名词。然而,没有人能充分地描述灵敏度(sensitivity)和特异度(specificity)之间的重要权衡(trade-offs)。
- 一个例子是诊断的准确度(diagnostic accuracy),即正确结果的比值
- 被正确定义疾病状态的总人数除以所有参加试验的总人数
- 或\(\cfrac{(a+d)}{(a+b+c+d)}\)。
- 单元格b和c在系统中是干扰(noise)
- 另一个早期尝试是尤登指数(Youden’s J)
- 它简单地将阳性预测值(predictive value positive)加阴性预测值(predictive value negative)减1
- 指数范围从0(掷币决定,没有预测价值)到1(阳性试验和阴性试验的预测值都完美)
五、灵敏度和特异度之间的权衡(Trade-offs)
异常临界值(cut-off for abnormal)应设定在哪里?
- 理想的试验能完美地区分有病和无病,两组人群的试验结果分布(distributions of test results for the two groups)没有重叠。但是基于人类生物学,更常见的情况是有病和无病的试验结果相互重叠,有时甚至很宽。
- 当正常和异常的临界值被确定后就决定了灵敏度和特异度。
- 任何连续性变量的测定(如血压、眼内压、血糖),试验的灵敏度和特异度呈负相关(inversely related)。
- 如图所示,若血糖异常的临界值如果设在X点将产生完美的灵敏度,这个较低的临界值将识别出所有的糖尿病患者。然而其代价就是试验的特异度很差:那些代表健康分布的粉红色和紫色区域中的人群同样被不正确地认为有异常的血糖值。血糖异常的临界值如果设在较高的Z点将产生相反的结果:所有健康者都能被准确定义(完美的特异度),但代价是将丢失相当一部分疾病人群(糖尿病分布的紫色和蓝色区域)。作为妥协,可以将临界值设在Y点,误诊一些正常人和糖尿病患者。
- 临界值的设定应该基于试验的临床意义,受试者工作曲线对决定是有帮助的。
- 新生儿的苯丙酮尿症(phenylketonuria)的筛查保证了灵敏度而不是特异度,错过一个病例的代价很高,并且存在有效治疗。缺点是相当一部分是假阳性,导致了痛苦焦虑和进一步检查。
- 乳腺癌的筛査更偏向特异度,因为阳性结果的人群必须进行价格较高、有创伤性的活检来进一步明确。
六、患病率(Prevalence)和预测值(Predictive values)
试验结果能被相信吗?
筛查的一个极难被理解的特征是疾病的患病率对预测值的潜在作用。临床医师必须知道待测人群中大概的患病率。否则,不可能获得合理的解释。
假设,确定一种新的PCR法诊断来衣原体(chlamydia),灵敏度为0.98,特异度为0.97(非常好的检测方法)。图7-3的左侧表格显示了医生在性传播疾病诊所中应用该项试验的数据,那里沙眼衣原体的患病率为30%。在这个高患病率的设定里,阳性结果的预测值非常高,为93%(即93%阳性结果的受试者是真实的感染患者)。
因为对新的试验方法印象深刻,现在该医生将此方法在自己的郊区私人诊所中应用。(图7-3的右侧表格)。这里衣原体感染的患病率仅为3%,现在同样完美的试验其阳性预测值仅是50%。换句话说,投掷硬币可以获得同样的阳性预测值(且比寻找一些DNA更便宜和简便)。
上述信息很重要,但没有被广泛理解的是:当在低患病率的情况下应用时,即使是非常完美的试验同样出现很差的阳性预测值。相反,阴性预测值则是真实的,从图7-3来看近于完美。虽然诊断出性传播疾病有非常重要的健康意义,但被错误地贴上感染者标签的人却可能出现婚姻破裂和生活危机。
- 特异度是检出健康人群的,如果人口数量非常大时,即使是再高的特异度(如99%),剩下1%(也就是误报人数,本身没有疾病,却报告了阳性的检测值)如果乘以较大的人口基数的话,这个数值也会很大。
- 与此同时,如果发病率非常低,本身真实的患者就少,如果特异度再高(如99%),特异度乘以真实的患者,这个数值也会很小。
七、联合试验/Tests in combination
需要进行后续试验(follow-up test)吗?
(一)序贯试验(in sequence)
- 临床医生较少单一地应用各种试验。很少有试验具有较高的灵敏度和特异度。所以常用的策略是序贯地进行一些试验。
- 以梅毒为例,一个灵敏的(但非特异的)试验用于最初的筛查,结果阳性者将进行下一个更特异地诊断梅毒螺旋体的试验。只有那些两项试验均阳性的受试者才能被诊断。
- 这样的策略与单个试验相比增加了特异度,并限制性地应用更为昂贵的梅毒螺旋体的检测。诊断HIV-1也有同样类似的二步法。
(二)平行试验/tandem (parallel or simultaneous testing)
- 两种不同的试验可能都没有好的灵敏度,但其中一种能较好地捕捉疾病的早期状态,相反,另一种方法能更好地发现该病的晚期阶段。
- 任何一个试验的阳性结果都预示了受试者需要进一步的诊断评估
- 这种流程比其中任何一个试验单独应用时的灵敏度更高。
八、优势或偏倚?
一种筛查项目真的能够改善健康状况吗?
(一)领先时间偏倚(Lead-time bias)
指与筛查相关的虚假的寿命延长。例如,假设乳房钼靶筛査能比通常情况早2年诊断肿瘤,但筛查本身并不能延长寿命。结果,筛查发现的乳腺癌妇女比常规诊断的患者平均多生存2年。生存的延长非常明显却不真实:这个假设的筛査使妇女提前两年知道自己有肿瘤,但是并没有延长生存。这是典型的零点移动(zero-time shift)
(二)病程长短偏倚(Length bias)
生存的延长是真实的,但是是间接的。假设社区乳房钼靶筛査是10年进行一次。经筛查发现的乳腺癌妇女从肿瘤发现到死亡比一般方式发现的要多活5年。筛查与延长寿命的关系是显而易见的。
但是,在下面这个假设的例子中,生存的延长体现的是肿瘤生长本身的内在变异性,而不是筛查的作用。一个无痛且生长缓慢的肿瘤妇女可能获得足够的生存时间来进行10年一次的筛查。相反,一个进展迅速的肿瘤患者可能无法存活到筛查的时候。
(三)避免这些偏倚的唯一方法
避免这些偏倚的唯一方法是进行随机对照试验,然后通过比较不同年龄段筛查组和不接受筛查组的死亡率。此外,必须很好地完成这些试验。对于乳房钼靶检查这个花费甚巨的大型筛查项目,一些已发表的高质量研究对其效用提出了严肃的质疑。
九、结论
- 筛查是改善还是损害健康,取决于它的应用。
- 不同于一般的诊断试验,筛查试验被用于看上去健康的人群,这就引起了独特的伦理道德的思考。
- 灵敏度和特异度趋向于负相关。
- 异常临界值的选择应提示不正确的检查结果可能带来的后果。
- 即使是灵敏度和特异度非常高的试验,如果应用到患病率低的人群,其阳性预测值仍很差。
- 领先时间偏倚和病程长短偏倚夸大了筛查表面上的益处,这低估了在筛查开展之前,必须有更加严密的随机对照试验对其进行评估的必要性。