0%

倾向性评分(The Propensity Score)总述

说明:
1. 部分参考自Jason S. Haukoos, MD, MSc的文章The Propensity Score
2. 部分参考孙婷,秦国友等的文章自不同混杂结构条件下各倾向性评分方法的模拟比较研究

一、前言

2015年有2项发表在JAMA上的研究涉及对观察性数据(observational data)的分析,以评估治疗对患者预后的影响。

  1. 在Rozé等人的研究中[1],分析了一个大型观察性数据集,以评估早期超声心动图(early echocardiography screening)筛查动脉导管未闭(patent ductus arteriosus)与早产儿死亡率之间的关系。作者比较了847名接受了筛查的婴儿和666名未接受筛查的婴儿的死亡率。

    两个婴儿组不太相同:筛查组的婴儿年龄更小,女婴较多,并且很少接受过皮质类固醇激素的治疗。作者使用倾向性评分匹配(propensity score matching)创建了来自原始队列的605个匹配的婴儿对以调整这些差异因素。

  2. 另一项在Huybrechts等人的研究中[2],分析了Medicaid Analytic eXtract数据集,以评估妊娠期使用抗抑郁药与新生儿持续性肺动脉高压之间的关系。

    作者纳入了3 789 330名妇女,其中128 950名在妊娠期使用过抗抑郁药。使用抗抑郁药的妇女与没有使用抗抑郁药的妇女在年龄、种族/民族、慢性病、肥胖、吸烟和health care use方面存在差异。作者使用倾向性评分分层(propensity score stratification)方法部分地调整了这些差异。

二、使用方法

(一)为什么使用倾向性方法?

许多因素会影响治疗方法的选择。在许多情况下,患者会接受多种治疗方法。此外,接受不同治疗方法的患者显然不能混为一谈。这通常会导致患者影响结果的特征与治疗方法之间存在相关性(correlation)或混淆(confounding)。(通常称为“confounding by indication”)。

如果从常规的临床实践中获得观察性数据以比较使用不同治疗方法的患者的结局/预后,观察到的差异将是不同的患者特征和不同治疗方法的共同作用结果,难以描绘某一种治疗与另一种治疗的真实效果。

在观察性研究中,随机化是不可能的,因此研究者必须调整组间差异,以获得进行比较的治疗方法与感兴趣结局之间相关性的有效估计。多变量统计方法(Multivariable statistical methods)通常用于评估这种关联,同时调整混淆。

倾向性评分的方法可减少评估治疗效果时的偏倚,并允许研究者在分析非随机的观察性数据时降低混淆的可能性。

(二)倾向性评分的概念及其原理

  1. 倾向性评分是指在一定协变量条件下,一个观察对象接受某种暴露/处理因素(所研究的治疗方法)的可能性,它是一个从0到1的范围内连续分布的概率值。这种概率基于患者的特征,临床医生和临床环境。可以使用多变量统计方法(例如,logicistic回归)来估计这种概率。在这种情况下,所研究的治疗方法是因变量(dependent variable),而患者的特征,处方医生和临床环境则是预测因子(predictors)。

  2. 倾向性评分是指在给定一组协变量(\(X_i\))的条件下,将任意一个研究对象\(i(i=1,2,⋯,n)\)分配到处理组\((Z_i=1)\)的条件概率。第\(i\)个研究对象被分配到处理组的条件概率可以表示为:\[e(X_i)=P(Z_i=1\mid{X_i})\]

    其中\(e(X_i)\)被称为倾向性评分。倾向性评分相同的两个不同组别的研究对象,其拥有的多个协变量整体上分布是相同的。因此,组间协变量的不均衡性对处理效应估计的干扰被消除了。

  3. 倾向性评分的基本原理是用⼀个分值来替代多个协变量,均衡处理组和对照组间协变量的分布。对⾮随机化研究中的混杂因素进行类似随机化的均衡处理,减少选择偏倚。计算得出PS分值后,可采⽤匹配、回归调整、加权、分层的方法来均衡各组间协变量的差异,最终估计处理效应。

  4. 在生物医学研究中,倾向性评分通常用于比较治疗方法,但也可用于评估任何非随机因素(如接触毒素或病原体)与感兴趣结局之间的关系。

(三)倾向性评分的四种常规方法

(1)倾向性评分匹配

  1. 其通常包括2组研究对象,一组接受所研究的治疗而另一组则接受其他治疗,同时匹配具有相似或相同倾向性评分的个体。然后,直接比较接受所研究治疗的个体与接受其他治疗的个体之间的结果。
  2. 常用的匹配方法:
    • 最邻近匹配(Nearest Neighbor Matching)
      • 首先利用logistic模型计算倾向性评分值,根据分组变量将处理组与对照组区分开。
      • 然后对处理组个体随机排序,从处理组中选出第一个个体,与对照组中全部个体的倾向性评分值进行比较,找出对照组中倾向性评分值相同或相近的个体进行配对,若对照组中有2个或2个以上与处理组个体倾向性评分值相同,则随机选取。
      • 配对成功的个体从数据中剔除,对下一个体重复如上步骤,直到处理组个体全部完成匹配。
    • 卡钳匹配(caliper matching)
      • 在最邻近匹配集的基础上根据倾向性评分值在最邻近匹配集中的分布设置不同的卡钳,删除两组倾向性评分值之差在卡钳值范围外的配对个体,得到不同精度的匹配集,然后计算协变量之间的均衡性及样本不平衡性,并将结果进行汇总。
    • 全局最优匹配
  3. 使用倾向性评分匹配样本的分析结果可以接近随机对照试验的分析结果,因为考虑了数据的配对性质。

(2)倾向性评分分层

  1. 估计出每个研究对象的倾向性评分值后,根据倾向性评分值将研究对象分为若干层。

  2. 有文献指出,当估计线性处理效应的时候,将倾向性评分值分为五层可以消除组间近90%的混杂偏倚。经过分层后,每一层内处理组与对照组的协变量分布应该是均衡的。

    尽管增加层或组的数量可以减少偏倚的可能性,但通常使用五个层。

  3. 分析过程中,先在每一层内估计处理效应,最后将每层的效应整合成总的处理效应。这种方法基于于这样一种观念,即每个组/层中的个体比个体更相似。因此,他们的结果可以直接比较。

(3)使用倾向性评分进行协变量调整

在倾向性评分模型之后,构建单独的多变量模型,其中研究结果用作因变量(dependent variable),治疗组和倾向性评分用作预测变量(predictor variables)。这允许研究者评估与所研究治疗相关的结果,同时调整接受治疗的概率,从而减少混淆。

(4)倾向性评分逆处理概率加权/inverse probability of treatment weighting using the propensity score

在这种情况下,倾向性评分用于计算每个个体的统计权重(statistical weights)以创建样本,其中潜在的混杂因素的分布独立于暴露因素,允许对治疗和结果之间的关系进行无偏估计。

  1. 是边缘结构模型这类因果推断⽅法中的一种,其基本原理与传统的标准化法类似。

  2. 根据倾向性评分值赋予每个研究对象⼀个相应的权重,从⽽构建出⼀个虚拟的人群,在这个虚拟人群中,协变量的组间分布没有差异,因此消除了混杂因素的影响。

  3. 在逆处理概率加权的方法中,权重被定义为研究对象实际分组情况的概率的倒数,计算如下: \[w_i = \cfrac{z_i}{e_i}+\cfrac{(1-z_i)}{(1-e_i)}\]

    • \(z_i=1\)(处理组),则\(w_i = \cfrac{1}{e_i}\)

    • \(z_i=0\)(对照组),则\(w_i = \cfrac{1}{1-e_i}\)

  4. 计算权重后,再应⽤用加权回归的⽅方法估计处理理效应。

(四)倾向性评分以外的替代策略:以调整观察性研究中各组之间的基线差异

  1. 匹配基线特征/matching on baseline characteristics
  2. 分层分析/stratified analyses
  3. 多变量统计方法/multivariable statistical methods

倾向性评分方法通常比这些方法更实用或在统计上更有效,部分原因是倾向性评分方法可以限制最终分析中使用的预测变量的数量。倾向性评分方法通常允许将更多变量包括在倾向性评分模型(propensity score model)中,从而增加了这些方法有效调整混淆的能力,而不是直接纳入研究结果的多变量分析。

三、倾向性评分方法的局限性是什么?

  1. 每个研究对象的倾向性评分基于能够测量的患者特征,如果无法测量的因素影响治疗选择,则可能仍存在未调整的混淆。因此,在倾向性评分模型中使用较少的变量降低了有效调整混淆的可能性。
  2. 虽然倾向性评分匹配可用于组合可比较的研究组,但匹配的质量取决于倾向性评分模型的质量,而倾向性评分模型的质量又取决于进行分析的数据的质量、大小以及模型的构建方式。
  3. 传统的建模方法(如,变量选择,交互的使用use of interactions,回归诊断regression diagnostics等)通常不推荐用于倾向性评分模型的构建。例如,倾向性评分模型可以纳入更多数量的预测变量。

四、结果该如何解释?

鉴于这些研究属于观察性研究,治疗组和未治疗组中的个体不同。为了能够准确估计治疗与结局之间的关联,研究者必须调整两组之间的差异。

使用倾向性评分方法时,无论是通过匹配还是分层,结果的估计偏差小于不使用此类方法的估计偏差。

尽管观察性数据不能像随机临床试验那样严格地建立因果关系或确定治疗效果,但如果倾向性评分方法得到适当使用且样本量足够大,这些方法可能提供治疗方法可能效果的可靠近似值。这种方法对于随机临床试验不可行或不可能进行的情况特别有价值。

五、在评估倾向性分析的结果时,读者应该考虑哪些注意事项?

Rozé等人和Huybrechts等人的研究分别使用了倾向性评分匹配和倾向性评分分层。尽管这两种方法在平衡研究组方面比基于基线特征的简单匹配或分层更有效,但它们在最小化偏倚(minimize bias)方面的能力各不相同。通常,倾向性评分匹配比倾向性评分分层更大程度地减少偏差。在使用倾向性评分方法后,评估各组之间的平衡对于让读者评估研究组的可比性非常重要。

尽管没有单一的标准方法来评估平衡,但是比较治疗组和未治疗组患者之间的特征通常始于比较汇总的统计数据(例如,平均值或比例)和观察到的特征的整体分布。

对于倾向性评分匹配的样本,经常使用标准化差异(standardized differences,即差异differences/合并的标准偏差pooled standard deviations)。尽管没有普遍接受的阈值,但小于0.1的标准化差异通常被认为是可忽略不计的。

评估平衡提供了一般意义,即匹配或分层的良好程度,以及结果可能有效的程度。

不幸的是,只能在研究中可以测量的患者特征中显示平衡。无法测量的差异仍可能存在于各组间,从而导致结果的偏倚。

六、参考文献

  1. Rozé JC, Cambonie G, Marchand-Martin L, et al. Hemodynamic EPIPAGE 2 Study Group. Association between early screening for patent ductus arteriosus and in-hospital mortality among extremely preterm infants. JAMA. 2015; 313(24):2441–2448.
  2. Huybrechts KF, Bateman BT, Palmsten K, et al. Antidepressant use late in pregnancy and risk of persistent pulmonary hypertension of the newborn. JAMA. 2015; 313(21):2142–2151.