说明：
1. 部分参考Elsevier/The Lancet出版的The Lancet Handbook of Essential Concepts in Clinical Research

描述性研究可以做什么，不能做什么

一、摘要

描述性研究常常代表了新的领域科学研究的第一步。
描述性报告的基本元素是对所研究的疾病或状态进行明确的、特定的和可计量的定义。
就像报纸一样，好的描述性报告回答五个基础问题：谁、什么、为什么、什么时候、在哪里，以及第六个，那又如何。
针对个人的研究有个案报告、病例系列报告、横断面研究和监测研究，而生态学的关联研究是针对人群的。
在医学文献中，个案报告是最小的发表单位。病例系列报告则在一篇报道中有数个病例，短期内不寻常病例的集中报道常常预示着新的流行事件。
横断面(现况)研究描述人群的健康状况。监测可以看作是对社区健康的警示，对那些需要了解情况的人进行反馈是监测的必要组成部分。生态学上的关联研究寻找人群中而不是个人的暴露因素和结局的关系。
描述性研究有三个重要作用：趋势分析、健康记录和产生假设。
描述性研究的报告中常见的错误是超越资料：没有比较组的研究不能得出关于关联、因果关系(associations, causal)等的推论。从描述性研究中产生的假设常在严密的分析性研究中进行验证。

二、描述的五元素

传统的描述性流行病学关注三个问题:人、地点和时间，或者说致病因素(agent)、宿主(host)和环境(environment)。

另一个方法是新闻报道的方法。好的描述性研究就像好的新闻报道，应该回答5个“W”问题：

谁(who)
什么（what)
为什么(why)
什么时候(when)
在哪里(where)
隐含的第六个问题，那又怎么样(so what)

（一）所研究疾病的对象是谁？（who)

年龄和性别需要被叙述，其他的特征也可能很重要，包括种族、职业或休闲活动。例如：

静脉血栓栓塞的危险随着年龄呈指数级增加。
只有1%的乳腺癌在男性中发生，而Klinefelter综合征或者有乳腺癌家族史则使其危险性增加。
种族影响子宫平滑肌瘤的发生。
商业捕鱼仍然是危险的行业。
开全地形车或者雪地汽车，特别是醉酒后驾驶更有生命危险。

（二）所研究的状态或疾病是什么？(what)

有一个明确的、特异的、可检测的疾病定义是描述性研究重要的一步。
- 有些诊断是明显的：骨折
- 其他的诊断则可能具有挑战性：
  - 多发性硬化
  - 系统性红斑狼疮
  - 盆腔炎症性疾病（输卵管炎）
有些机构根据共识(consensus)或者德尔菲法(Delphi panel approach)而不是证据，公布了疾病的定义，而随后被发现是不正确的。
- 有依据提示阴道分泌物和红细胞沉降率升高提示输卵管炎，但这些预测信息就没有纳入到广泛应用的诊断标准中。
  
  德尔菲法（Delphi method）：是一种结构化的决策支持技术，它的目的是在信息收集过程中，通过多位专家的独立的反复主观判断，获得相对客观的信息、意见和见解。
  
  调查组通过匿名方式对选定专家组进行多轮意见征询。调查组对每一轮的专家意见进行汇总整理，并将整理过的材料再寄给每位专家，供专家们分析判断，专家在整理后材料的基础上提出新的论证意见。如此多次反复，意见逐步趋于一致，得到一个比较一致的并且可靠性较大的结论或方案。
  
  德尔菲法的要点是：被征询意见的专家采用匿名发表意见，专家之间不可互相讨论，不发生横向联系。从而避免专家意见向少数影响大的专家意见趋同。
一般来说，严格的病例定义(case definitions)标准是理想化的。不可否认的是，如果仅仅把比较严重的病例作为研究对象，就可能漏掉轻的或者早期的病例。尽管这一方法不可避免的导致一些信息的丢失，但是这有较好的特异性。严重的病例不像轻度的病例那样受到其他条件的干扰。
- 中毒性休克综合征的严格病例定义要求累及多个器官系统。

（三）为什么这种情况或疾病会发生？(why)

描述性研究常常产生关于病因的线索,可以用于设计更复杂的研究。

临床观察	内在的关联
青年女性的肝细胞腺瘤	高剂量的口服避孕药
新生儿的失明	婴儿恒温箱的高氧浓度
青年男性Kaposi肉瘤	感染HIV-1
雇员的肝血管肉瘤	工业上接触氯乙烯(vinyl chloride)
新生儿的白内障、心脏缺陷和聋哑	妊娠时母亲感染风疹

（四）什么时候这种状态是常见或者少见的？(when)

时间会给健康事件提供重要的线索。
- 摄入葡萄球菌毒素后胃肠炎的暴发就是一个典型。
有些时间上的联系可以是长久的
- 例如阴道腺瘤和阴道透明细胞癌是在母体子宫内暴露于乙二基己烯雌酚多年后才发生。
- 宫颈和其他上皮癌也是在感染了人乳头状瘤病毒数十年后才发生的。
- 出生和死于肺炎、流感的情况就像精子计数那样有季节性规律。

（五）这种疾病或状态在哪里发生或在哪里不发生？(where)

地理因素对健康有巨大的影响。

饮水中含氟量高能够保护牙齿不患龋齿
纬度对多发性硬化症和维生素D缺乏症都有影响
阳光可能减少或增加癌症的危险性

（六）那又如何？(so what)

这个隐含的“W”问题与公共健康影响有关。

这个情况是现在发生的吗？
是否及时报告？
严不严重？
是不是有很多人发生？
牵涉的社会范围广吗？
以前研究过吗?

三、描述性研究的类型

描述性研究包括两大类：研究每个个体(individuals)和研究相关的人群(populations)。

（一）个案报告(case report)

个案报告是医学文献最小的发表单位。观察力敏锐的临床医生通常报告一些不同寻常的疾病或关系，然后推动更严密的研究设计。例如，一个临床医生报道了服用口服避孕药的妇女患了少见的肝细胞腺瘤。一个大型的病例对照研究针对这个方向进行研究，证实了长期服用高剂量的这种药物和这种少见但有时致命的肿瘤存在强烈的相关性。并不是所有的个案报告都能解决严重威胁健康的问题，有时候只是使乏味的医学文献活跃一些。

（二）病例系列报告(Case-series report)

病例系列报告是指在一个报道中集中报告数个个案。有时候，几个类似的案例在短期内的出现预示着一种流行疾病。
- 在洛杉矶同性恋男性中出现类似的临床综合征警示医学界艾滋病在北美洲的流行。
单个不寻常病例的报告可能不能启动进一步的研究，而数个不同寻常病例(超出期望)的系列报告就增加了考虑的分量。
病例系列报告的便利因素是他们能够组成病例对照研究的病例组从而对疾病的原因进行研究。

（三）横断面(现况)研究[Cross-sectional (prevalence) studies]

现况研究描述人群的健康状况。
- 美国联邦政府进行周期性人群健康调查(如健康面试调查和健康营养监测调查)。与10年一度的调查类似，这些研究提供了人群在特定时间的健康状况。
  
  the Health Interview Survey and the Health and Nutrition Examination Survey
患病调查也可以在小样本的人群中进行。
- 例如调查显示波多黎各(Puerto Rican)医药公司雇员中男性乳房发育的患病率特别高。这一发现导致一个假设的提出：工厂中的雌二醇尘埃可能是病因，血清雌二醇浓度支持这一假设。工厂中加强控制尘埃后这一疾病的流行情况停止了。类似的现况研究也将男性乳房发育与难民的饮食和污染的食物联系起来。
尽管一般来说横断面研究与队列研究和病例对照研究不同，但它也可以看作是一种在队列研究人群中进行病例对照研究的类似情况。因为暴露和结局被同时确认(横断面研究的特征性定义)，花费很小，失访也不是问题。但正因为暴露和结局是同时确认的，经常不可能分辨其时间顺序，只有像性别和血型这些长时间的暴露因素才会肯定比结局要早。对于变化的暴露因素，过去病因学的相关性信息则比当前的信息更有意义。

（四）监测(Surveillance)

监测可以看作是对社区情况的警示，一个更正式的定义是“持续的系统性收集、分析和解释对规划、实施和评估公共健康实践很重要的健康资料，并在此过程中不失时机地把这些资料传递给需要的人”。
其特征是像自动控制装置一样的反馈(feedback)，对问题的预防和调控是反馈回路的基本内容。
监测可以是主动的和被动的。
- 被动的监测依赖于通过常规途径收集的数据，如死亡证明。
- 主动的监测寻找病例。流产相关的死亡报告就是一个例子。
  - 从1972年开始，美国疾病控制和预防中心(the US Centers for Disease Control and Prevention)就用多种重叠的来源(例如国家产妇死亡率研究委员会、职业团体、报纸和专业同事)进行主动的死亡监测。通过比对官方的统计数字，主动的监测可以发现两倍的死亡病例。对产妇死亡的报道过低是一个国际问题。
流行病学监测对健康有重要的贡献，使人印象最深刻的当属天花病毒的根除。对天花的监测和防治导致了其在世界范围的消除，这是公共卫生的一项特别成就。通过检测发现病例并对周围易感人群进行免疫接种的方法停止了天花的传播。因为它没有非人类的载体，所以这种病毒就消亡了。

（五）生态学相关性研究(Ecological correlational studies)

生态学相关性研究在人群中并非个体层面寻找暴露和结局的关系。因为已经收集了很多数据，所以可以很方便地开始假设的相关性研究。
暴露和结局之间相关性的测量值是相关系数\(r\)(correlation coefficient)：表示暴露和结局之间的相关性的线性关系如何。
- 冠心病的死亡率与人均香烟销售量相关
相关性研究有严重的缺陷
- 不能在个体中将暴露与结局相联系
- 不能控制混杂因素(confounding)，即对效应产生混淆或模糊的因素
  - 如观察到冠心病的死亡率也与人均彩色电视机数相关。即使是对电视最严厉的批评也不大可能证明电视机阻塞了冠状动脉，这是一个“生态学研究的谬误(ecological fallacy)”。

四、描述性研究的应用

（一）趋势分析/Trend analysis

正在进行的监测常常用于趋势分析，例如在俄罗斯联邦中突发流行的梅毒，辅助生殖技术导致的多胎、早熟、低出生体重的国际流行。这些情况的流行引起了社会问题。

（二）规划

第二个应用是卫生规划(health-care planning)。

腹腔镜的引入与口服避孕药的不良反应以及宫内节育器的副作用使输卵管结扎率在20世纪70年代的美国翻了3倍。
医院和流动手术中心的手术需求激增，但对床位的需求却减少了。
与之类似的是针对艾滋病患者的高活性的抗逆转录病毒治疗的出现减少了床位的占用。

（三）寻找病因的线索

描述性研究的第三个用途是产生关于病因的假设(hypotheses about cause)。

敏锐的临床医生注意到早产儿保育箱中高浓度的氧与婴儿失明有关，这一发现导致了分析性研究的开始，后来一项随机对照试验确定了这一联系。
为手表表盘涂镭的妇女癌症的发生率出乎意料的高，这引起了研究者对这一职业性暴露危险的警觉。

（四）优点和缺点

描述性研究有其长处和弱点。数据经常是现成的，因此价廉又高效。而且，很少有伦理的问题。然而，描述性研究也有重要的缺陷。假设的病因及其作用的先后关系可能不清楚，一个危险的陷阱就是研究者可能得出不可能成立的病因推论(causal inferences)。

超越数据/Overstepping the data

在推论时一个常见的错误是“后此谬误”推理，这是一种错误的病因推论。换句话说，因为时间上的联系错误而判断为有因果关系。
后此谬误的定义
- 拉丁文：post hoc ergo propter hoc reasoning
- 英文：after the thing, therefore on account of the thing
- 中文：在此之后发生，因之必然由于此
后此谬误(Post Hoc Fallacy)：就是如果A事件出现后，B事件也出现了，就贸然断定“因为A，所以B”或者“只要发生A，必然B”的思维错误。举个简单例子，我吃一个包子，没感觉饱，然后吃第二个直到第五个为止，然后我自己得出结论，“因为吃第一个到第四个包子都不会饱，而吃了第五个包子才饱，所以以后只吃第五个包子就可以了”。
后此谬误的例子

25年前，引入胎儿检测与围生期死亡率下降先后发生，其联系使得人们认为持续性胎儿心率监测是一件好事情。甚至，当时的权威人士预测围生期患病率和死亡率将因此下降50%。

在著名产科医生的美好估计的基础上,这种昂贵的干扰性技术给产科学带来了风暴。然而这一开始很乐观的估计并没有得到科学观察的支持。数年后，一项随机对照试验的荟萃分析显示与常规的间断性听诊相比，常规的电子胎儿检测对婴儿没有持续的好处，而且它使手术接生显著增多，这对妇女是有害的。在此客观的meta分析(meta-analysis)基础上，加拿大定期体检工作组(the Canadian Task Force on the Periodic Health Examination)和美国预防服务工作组(the US Preventive Services Task Force)给常规电子胎儿监测D类建议(有相当的证据反对其常规应用)。尽管有这个建议，在美国大约四分之三的新生儿出生时使用了电子胎儿监测。因为没有认识到描述性研究的不足而造成长时间的伤害,还浪费了几百万美元。

五、结论

描述性研究常常是对一个新事件或疾病的第一个尝试性研究手段。这些研究一般来说强调一个新的疾病的特点或者评估社区的健康状态。
卫生决策者采用描述性研究来监测趋势，规划资源分配。
流行病学家和临床医生一般用描述性研究来寻找疾病的病因线索(如产生假设)。在这一点上，描述性研究常常作为开展更严格的有对照组的研究的跳板。
描述性研究报告常见的缺点包括缺乏清晰、特定、可重复的病例定义以及超出资料的解释。没有对照组的研究不能得出关于病因的结论。

高山流水

临床研究基本概念：观察性研究（一）