首页\中医书籍\西医备考\《流行病学》\
 《流行病学》 > 第四章 分析性研究

二、队列研究

(一)概说

大多数慢性病都是历时多年的一个过程所形成。在此期间发生的许多事件都可能起致病作用。对一群人在某种病尚未明显发生前,对某个(或某些)可能起病因作用或保护作用的事件的后果进行随访监测,是一种从“困”观“果”的研究方法。

队列研究(又译为定群研究、群组研究)(cohort study)就是这样研究病因的一种流行病学方法。研究对象是加入研究时未患所研究疾病的一群人,根据是否暴露于所研究的病因(或保护因子)或暴露程度而划分为不同组别,然后在一定期间内随访观察不同组别的该病(或多种疾病)的发病率或死亡率。如果暴露组(或大剂量组)的率显著高于未暴露组(或小剂量组)的率,则可认为这种暴露与疾病存在联系,并在符合一些条件时有可能是因果联系(图4-2)。

队列研究示意图

图4-2 队列研究示意图

各组除了暴露有无或程度不同之外,其他可能影响患病或死亡的重要因素应具有可比性(均衡性)。但并不要求除暴露状况外一切方面都可比,这在观察性研究中实际上是做不到的。有些因素可在数据分析中得到控制。

队列研究所观察的结局是可疑病因引起的效应(发病或死亡),除了所研究的一种病,还可能与其他多种疾病也有联系,这样就可观察一个因素的多种效应,而这正是队列法不可取代的用途。

根据作为观察终点的事件在研究开始时是否已经发生,可把队列研究分为前瞻性与回顾性两类。

另有一种双向型的队列研究,适于研究对人体兼有短期与长期效应的因素,可用回顾性队列法研究前者而用前瞻性队列法研究后者。

还有一种把病例对照法与前瞻法结合起来的设计。其特点是用队列法建起队列(研究对象)并随访发现其中发生的病例,然后用病例对照法调查病例及队列中适于作对照的一部分人的暴露史。这里,病例与对照都来自一个界定明确、有基线资料记录的队列,暴露史的质量较高,还可以有病例尚未发病时的实验室检验记录,而且可以省去对占绝对多数的未发病成员的暴露史调查。

队列研究从方法上来说并不比病例对照法复杂,但实际进行起来却问题较多,因为观察人数多、期限长,组织工作复杂,开支庞大。但是,队列法是一种重要的医学观察方法,已经为解决现代医学的一些迫切问题(例如癌症和心血管病)做出重要贡献,所以作为临床医生也应该对其原理有所了解,而且这对于科学思维能力和批判地阅读能力的培养,也是大有裨益的。

(二)前瞻性队列研究

前瞻性队列研究首先根据研究对象在加入研究时的暴露情况分组,以后通过直接观察或其他信息渠道确定其中在某段时间内(对慢性病通常为10年至二三十年)发生的病例或死亡,最后比较各组的发病率或死亡率。

1.研究队列的选择

(1)特别暴露组:因为队列研究通常用于验证经过病例对照研究建立起来的假设,已有关于可疑病因的足够知识供选择暴露组之用。可选择超额暴露于可疑病因或生活习惯或职业可能与所研究疾病有关的人,建立暴露组。另外设一个未暴露组(对照组),用于估计暴露组倘未暴露于该因素时可能的发病或死亡水平。有时可不设对照组,而是把暴露组的率与全人群的率作比较,因为对特殊暴露(例如职业、医药)而言,暴露者在人群内总是少数或极少数,所以可把全人群的率视作未暴露者的率。

(2)某人群的一个样本:某个人群(例如工厂)内的成员对可疑病因的暴露状况不同时,可分作不同的组并互相比较(又称内部比较)。

不论哪种队列,都应选择暴露情况易查明,便于随访又较稳定的人群。如果从全人群(例如某地)抽取样本建立队列,应限于从暴露者比例高的范围内(例如某年龄段)或严重暴露者(即高危人群)之中抽样,这样可使所需样本较小,随访期较短。

样本含量的估计见附录五(三)。

2.基线资料的收集 首先,暴露必须有明确定义。其次,根据资料或特别检查结果,评定队列成员的暴露状况,剔除其中已患或疑似已患所研究疾病的人和对之不易感的人。原则是只能以受危者,即有可能患这种病但并未患这种病的人,作为观察对象。除所研究的暴露之外,还要收集与患病危险度有关系的其他暴露的资料。资料来源有医疗记录、劳动记录、劳保资料、访问、医疗检查、环境测定等。

职业暴露的测定是个复杂问题。最好有实测个人暴露量数据。如没有,可以工种(工作岗位或车间)作为暴露指标,再加暴露时间(工龄),作为暴露剂量的间接粗略估计。暴露剂量的测定为研究剂量反应关系所必需。剂量反应关系在此是指暴露剂量和一个人群中发生某一标准反应(如发病、死亡等)的人数的关系。

有的因子除职业环境暴露外,还有来自家庭环境、局部环境和区域环境的暴露,评价个人或人群暴露量时都应包括在内。

与个人生活习惯或性格有关的因子,如吸烟、膳食、体力活动等,须通过访问调查和填表加以定量测定。

研究因子属于生理、生化指标的,须检查测定。

3.随访 应进行尽可能完全的随访,以确定各成员的结局。所谓结局是预定的观察终点,通常是死亡或发病。如以其他健康效应作为终点,则其确定更复杂。

随访的方法有直接的,如函调、面谈、定期体检,有间接的如医院病历,死亡登记、疾病报告卡、人事档案、劳保资料、保险档案等,须根据结局的性质选用。

随访的目的主要有二:①确定哪些人尚在观察之中,哪些已死亡,哪些已无法追踪,即弄清楚率的分母的信息;②确定终点事件的发生,即确定关于率的分子的信息。关于分子的信息,必须尽可能地正确;关于分母的信息,如果无法掌握每一成员的动态,则不得已时也可用抽样、用寿命表法计算预期数等方法估计。

失访及其处理:由于随访对象多、时间长,不可避免会有中途不知下落的成员,也可能有拒绝继续受观察的人,这就产生了失访。如果暴露组与未暴露组的失访率相似,失访者与未失访者的结局发生率也相似,则失访将不会产生偏倚。所以应尽可能取得失访者结局的信息,或从失访者中抽取样本调查其结局。如果有健全的生命统计制度和完善的的社会福利制度,要检索队列中某一成员的死亡日期和死因,可以利用多种便利的信息来源,所以即使对失访者也有可能知道其结局。比较现实可行的方法是把失访者与未失访者的基线资料中的一些特征加以比较,如差别不大,则可假定结局发生率的差别可能也不大。否则,对选择偏倚可能产生的影响应有充分估计。因为失访产生的问题不易圆满解决,所以一方面要尽可能减少失访,另一方面要认识可能由此产生的偏倚并设法估计其影响。随访率可作为衡量研究质量的一个标准。如无把握保持近于完全的随访率,则不应贸然进行队列研究。失访问题主要是在封闭队列(固定人群)发生的问题。

4.偏倚 队列一般是全人群的一个有高度选择性的亚群,所以队列研究的结论不能无条件地推及全人群,但这并不影响其真实性。如果随访工作做得好,一般不会发生选择偏倚。疾病或死亡信息(即终点的判定)的收集,要保证各组间信息质量的可比性,而且不受研究对象暴露状态的影响,以免发生信息偏倚。回忆导致的信息偏倚是影响病例对照研究真实性的一大问题,但对队列研究影响不大。混淆因素最普通的是年龄与吸烟,其他混淆因素视暴露种类而异,应收集资料,以便在分析时控制其作用。

5.结果分析 队列研究是发生率的研究,包括疾病发生率与死亡发生率。以死亡作终点的队列研究比以发病作终点的为多,这是因为死亡的确定比发病的确定容易。

队列研究的结果,可以用来计算所研究疾病在随访期间的发病率或死亡率及各种专率。通过对暴露组与非暴露组的率或不同剂量的暴露组的率的比较,或暴露组的率与全人群的率比较,便可检验病因假设;对可疑病因的暴露与疾病(死亡)是否存在联系;联系强度如何;是否是因果联系。

(1)率的计算

1)累积发病率(cumulative incidence rate,CI):某一固定人群在一定时期内某病新发生例数(D)与时期开始总人数(N)之比(表4-7,公式4-7)。也就是一般所说的发病率。随访期越长,则病例发生越多,所以CI表示发病率的累积影响。CI又是平均危险度的一个指标,也就是一个人在特定时期内发生该病的概率。

CI=C/N(式4-7)

2)发病密度(incidence density,ID):当队列是一个动态人群时,观察人数变动较大(因失访、迁移、死于他病、中途加入等),应该用发病密度来测量发病情况(表4-8,公式4-8)。发病密度是一定时期内的平均发病率。其分子仍是一个人群在期内新发生的例数(D),分母则是该人群的每一成员所提供的人时的总和。所谓人时(person-time,PT)是观察人数乘以随访单位时间的积。发病密度即说明了该人群发生的新病例数,又说明该人群的大小和发生这些例数所经历的时间。时间单位常用年,故又称人年数(person-years)。一定的人时(人年)数可来自不同的人数与不同的观察时间,例如100人年可来自100人观察一年,或50人观察2年,或200人观察0.5年。

表4-7 累积发病率的计算

级别发病数未发病数发病率
暴露组αbα/(α+b)
非暴露组cdc/ c+d)
合计α+c(=D)D/(α+b+c+d)

表4-8 发病密度的计算

组别发病数人年数发病密度
暴露组αPT1α/PT1
非暴露组cPT0c/PT0
合计a+c(=D)PTD/PT

ID=D/PT(式4-8)

人年数的算法:①固定人群,即封闭人群,人年数是每一个成员的具体观察年数的总和。每一成员的观察年数是从观察开始算起到终点事件出现或研究结束时经过的年数(月数、周数、以至日数均可折算为年数);②动态人群,如果不知道每一成员进入与退出的具体时间,就不能直接计算人年数。但如随访期间人数与年龄基本保持稳定,则可用平均人数采以观察年数得到总人年数。平均人数取得相邻两时段人数之平均数或年中人数,例如表4-9(节录Doll与Hill关于吸烟与肺癌关系的队列研究第2报)。

表4-9 人年数的计算实例

年龄(岁)观察人数人年数
1951.11.011952.11.011953.11.011954.11.011955.11.011956.04.01
35~88869149928794149710979641211
45~71177257738173517215719132156
55~6440494212437546015057524319909
合计20097206182104321366219822223093276

例如,表4-9中“35~”岁组的人年数=(8886+9149)÷2+(9149+9287)÷2+(9287+9414)÷2+(9414+9710)÷2+(9710+9796)÷2×5/12=41211;③各人随访年数不同,可先算出各人随访人年数,再计算总人年数;而且因为随访期内各人的年龄在增长,到一定日期(某岁生日)年龄超过原属年龄组上限时,应计入下一年龄组的人数。所以可以算出各年龄组的总人年数以及不同年份(日历年calendar year)的总人年数,结合同年龄组或同年份发生的病例数,即可算出各年龄组或年份的发病率(发病密度)。确切算法要根据每一成员的出生年、月、日和开始与终止观察日期而动态地计算,可借助计算机。实际上还可用近似法:开始与终止观察年份各算0.5年,同一年开始与终止的算0.25年,开始与终止年份之间,每年算1年。

人时率的标准误、显著性检验和分层分析方法,与通常以人数为分母的率所用的不同,本书从略。

(2)联系的测量:研究某种暴露与疾病或死亡的联系的基本方法是比较暴露组与未暴露组的发病率或死亡率,也就是计算出这些率的差或比。

1)率差:暴露组的发病率或死亡率与未暴露组同种率之差。说明由于暴露增加或降低的发病率或死亡率。有人称率差为归因危险度(attributable risk)也有人认为称为超额(或超常)危险度(excessrisk)比较合适,因其不含因果联系的暗示。

2)人群归因危险度(population attributable risk,PAR)率差与相对危险度都说明暴露的生物学效应,但不能说明其对一个人群的危险程度或消除这种因素后可能使发病率或死亡率降低的程度,或即暴露的社会效应。说明这种效应的一个指标是人群归因危险度,它说明某一人群(包括暴露者与非暴露者)的某病发病(或死亡)率中可归因于该暴露的部分,用所占比例或分数表示,如下式:

(式4-9)

式中It=全人群的发病率,I0=未暴露组的发病率。PAR又称病因分数(分值)(etiologic fraction EF),也可用百分比表示,称为人群归因危险度百分比。

①病例对照研究的PAR计算:从暴露的相对危险度(见下文“率比”)和人群对某因子的暴露率(Pe),可算出PAR。如果病例对照研究中对照组的暴露率可以代表人群暴露率,则可用下式:

(式4-10)

如以百分比表示,也称为人群归因危险度百分比(population attributable risk percent-age,PARP)。

②队列研究用人时(发病密度)数据时的指标计算:

暴露非暴露合计
病例数αbm
人年数cdPT

人群归因危险度的大小取决于危险因子(病因)的相对危险度和人群暴露比例(表4-10)。例如,据Doll与Peto研究(1981),1978年美国癌症死亡中的25%~40%(平均30%,约12万人)可归因于吸烟,而同年归因于职业因素的癌症死亡只占2%~8%(平均4%)。两者相差这么悬殊是因为人群的吸烟率很高而暴露于职业性致癌因素的人相对很少。

表4-10 人群归因危险度百分比与相对危

险度(RR)和人群暴露率(Pe)的关系

PeRR
1.52510
0.010.5148
0.05251731
0.10592947
0.2511205069
0.520336782
0.931477889

计算实例:表4-11是一项关于血清胆固醇水平与发生冠心病(CHD)的危险度的6年随访研究结果。这是从1948年开始的著名的美国Framingham心脏病队列研究的一部分(此研究后来以当初成员的后代为对象,继续进行)。

表4-11 40~59岁男子按初始血清胆固醇水平分组的冠心病6年发生情况

血清胆固醇(mg/dl)人数病倒数危险度平均年发病率相对危险度率差
<210454160.03520.00591.000.0000
210~455290.06370.01061.810.0285
≥245424510.12030.02003.390.0851
合计1333960.07200.0120

转引自Feinleib与Detels,1985

表中,危险度系用式4-7计算,也就是累积发病率,说明6年随访期间发生CHD的危险度,除以6得年平均发病率。胆固醇的浓度以观察开始时检查的结果为准,相对危险度的计算以<210mg/dl(约合5.439mmol/L)组的危险度为1。率差或超额危险度系0.0352与其他两组危险度之差,表示不同程度的暴露所增加的危险度。如以<210mg/dl组的发病率作为未暴露组的发病率,即Io=0.0059,以≥245mg/dl(约合6.3455mmol/L)组为暴露组,则Io=0.0200,用式4-9算出PAR=(0.0120-0.0059)/0.0120=0.51。这可解释为如所有40~59岁男子的血清胆固醇浓度都能控制在210mg/dl以下时,该人群的CHD发病率将可降低51%。

3)率比与相对危险度(relative risk,RR):队列研究中暴露组的发病率(发病密度)与非暴露组的发病率之比,称为率比。率比、危险度比和比数比(OR)在危险度不高时(少见病)三者的值几乎相等,都可称为相对危险度。

(式4-11)

如以死亡率为终点,则式(4-11)中以死亡率代替发病率。如果按暴露水平分组,以其中某一组的发病率为基准,其他各组的发病率与它的比值也称为相对危险度,例如表4-12中的相对危险度。

相对危险度(RR)无单位,比值范围在0至∞之间。RR=1,表明暴露与疾病无联系;RR<1,表明其间存在负联系(提示暴露是保护因子);反之RR>1时,表明两者存在正联系。比值越大,联系越强。实际上,0与∞只是理论上存在的值,恰恰等于1也不多见。极强的联系既无须用流行病学研究去检测,极弱的联系也不大可能用非实验性的流行病学观察法检测出来。RR与OR的数值所表示的联系强度的解释可参考表4-12。

表4-12 RR或OR与联系强度

RR或OR联系强度
0.9~1.01.0~1.1
0.7~0.81.2~1.4
0.4~0.61.5~2.9中等
0.1~0.33.0~9.0
<0.110.0~很强

实例:Doll与Hill在1951年向英国注册的59 600名医生通信调查他们的吸烟史。要求他们将自己归入下列3类之一:①现在是吸烟者;②过去吸烟,但已戒掉;③从未习惯性吸烟(即从未“每天吸卷烟1支或与其等量的烟斗丝长达1年”。对现在吸者还询问其开始吸烟时的年龄、现在吸烟量及吸烟方式(指吸入深浅)。对已戒烟者也询问类似问题,但时间限定为刚戒烟前。答复满意者有40710人。以后,在随访期间(男医生为20年,女医生为32年)又函调3次。随访期间多方搜集成员的死亡与迁移动态及死因,力求完全。根据死亡数与随访人年数(表4-9实例)算出各年龄组、不吸烟者、已戒烟者及不同吸烟量者的全死因死亡率。表4-13节录Doll与Peto 1976年发表的对于男医生20年(1951.11~1971.10)随访报告中的表Ⅳ,原表中死因分为40类,可以看出吸烟对健康的全面影响。现节录其中几种重要死因的死亡率。读者可自己计算吸烟的相对危险度(率比),可见吸卷烟者的肺癌死亡率为不吸烟者的10倍,每日吸烟25支或更多者,肺癌死亡率为不吸烟者的25倍,等等。

(三)回顾性队列研究

回顾性队列研究的研究对象是根据其在过去某时点的特征或暴露情况而入选并分组的,然后从已有的记录中追溯从那时开始到其后某一时点或直到研究当时为止这一期间内,每一成员的死亡或发病情况。这工作,性质上相当于从过去某时点开始的前瞻性队列研究的随访,但实际做的是在现在调查过去的既成事实,这时暴露与疾病或死亡均已成事实,而前瞻性队列研究的随访则是查寻在过程中新出现的病例或死亡及其死因。

回顾性队列研究与前瞻性队列研究相比;人力、物力可以大为节省,特别是因为研究开始时所研究的疾病已经发生,所以无须多年随访等待。但进行回顾性队列研究的先决条件是存在在每个成员的完整翔实的暴露记录,这样才能正确划分暴露组与非暴露组,还要存在完整翔实的每个成员的疾病或死亡记录,这样才能查清每一成员的转归。

表4-13 巩固男医生按死因、吸烟类别和每日吸卷烟

支数分组的年(标化)死亡率(1/10万)(随访20年)

死因死亡数(不包括已戒烟者)不吸烟者只吸卷烟只吸烟斗或雪茄既吸卷烟又吸其他烟只吸卷烟者按每日数*
1~1415~2425~
肺癌3621014058827812721
食管癌5631411271112114
慢性支气管炎及肺气肿16737428345178114
缺血性心脏病……2205413669425528608652792
全死因69581317215414341591185720662834

*最后一次调查结果(Doll与Peto,1976)

1.队列选择 选择的队列应有许多人暴露于研究因子而且是大剂量的暴露。这样,发病数或死亡数才易于超常而被查出来。其次,应有各成员暴露水平的比较正确的记录。在选择暴露队列时还应考虑是否有可能选择一个适当的未暴露的比较组。但调查一个未暴露的队列要消耗大量人力、物力和时间,所以对职业性暴露的回顾性队列研究通常采用全人群的发病率或死亡率作为比较的基准。

2.暴露的测量 比前瞻性的更困难。通常只能根据工作岗位作粗略分组,再结合从业时间,对暴露剂量作一些估计。

3.观察终点 可选择发病或死亡。因为队列通常是一个有特殊暴露(主要是职业性暴露,其次是医药)的人群,所以须把他们的发病率或死亡率与全人群的率作比较。但因有全人群发病率资料可利用的病种与地方均很少,而有死亡率资料可资利用的病种和地方要多得多,所以多数研究选择死亡为终点。这样,只须调查队列成员的死因。但应注意应是全死因调查而不是只选择调查几种死因。

4.终点(结局)的监测 唯一信息来源常为死亡报告卡。但填写的死因不一定正确,应尽可能加以核实。在建立了癌症登记的地方,可以获得癌症发病和死亡的信息。如果结局错定或未能追踪的人数过多,将对结果产生严重影响。

5.混淆因子的测定 对一些重要的混淆因子,历史材料中常无记录。例如吸烟和多种暴露与疾病有关,但个人健康档案上常无记录。补救的办法是对尚存活的病例及一些对照努力作一番调查,以期获得缺失的信息,或对尚存的成员抽样调查。有些回顾性队列研究就是因为缺乏信息不能控制混淆因子,所以得不出明确的结论。

6.追踪 这是主要的现场工作,以查阅、摘录档案记录为主,以少量访问调查为辅。应尽可能查清成员的结局(发病、死亡或健在),减少下落不明者的数目。

7.结果分析 计算暴露组的死亡率或发病率与非暴露组的比较,或与全人群的率比较。选作比较标准的率应在时间上和地理上与队列观察时期及所在地尽可能接近。常通过计算标准化死亡比(SMR)或标准化发病比(SIR)加以比较。

SMR=100×∑aj/ ∑E(aj)=100×观察数/期望数(式4-12)

式中,aj=j年龄组实际死亡数。

E(aj)=j年龄组预期死亡数=该年龄组人口数×标准人群中同年龄死亡率(即,该年龄组某病死亡数/同年龄组人口数)。式中的死亡数、死亡率用发病数、发病率代替时,即得标准化发病比或标准化率比(standardized incidence ratio或standardizedrate ratio)。

SMR<100,说明实际死亡数少于预期数。SMR>100,说明实际死亡数多于预期死亡数,差别达显著水平时,提示暴露可能是危险因子。SMR也可不乘100,直接用比值表示。

两个SMR可计算率比,即相对危险度;两个SMR的差异是否显著,可用x2检验。通过比较可说明一个队列内何种死因危害较大。但应注意用不同标准率算得的SMR不能互相比较,即使是根据同一标准人群死亡率算得的SMR,也只有在各队列的年龄构成近似时,才具可比性。

称为“标准化”是因为年龄和时间作为混淆因子已通过间接标准化而被控制(间接标化法:先算出SMR,再以标准人群的粗死亡率或发病率乘以SMR即得间接标化率)。

回顾性队列研究实例 :

1.苯胺类染料引起膀胱癌的研究:从上世纪末起即有人怀疑苯胺类染料可能引起染料厂工人的膀胱癌。Case等从1950年开始对英国21家化工厂的工人进行了调查。目的是查明制造或使用苯胺、联苯胺、1-萘胺或2-萘胺能否在从业人员中引起膀胱癌。他们调查得到1921年起到1952年2月1日止曾在这些工厂至少工作过6个月的人员名单,共4622名。在此期间曾在染化行业工作过的人中间发生膀胱癌444例,其中属于上述21厂名单内且死于膀胱癌者有127例。根据1921~1949年英国男子膀胱癌死亡率算出预期死亡数(E)(从业人员中女性很少,未作分析),与实际死亡数(O)比较,接触2-苯胺者为O/E=26/0.3,1-萘胺=6/0.7,联苯胺=10/0.72。SMR分别为8666.7,857.1,1388.9。提示这3种染料有致膀胱癌作用。以后,英国和一些国家禁止生产2-萘胺与联苯胺,并被国际癌症研究中心(LARC)列入人类致癌物名单(1982),1-萘胺对人类致癌的证据尚不充分。

这项研究是回顾性队列研究和职业流行病学著名的工作。

2.胸部X线透视与妇女乳腺癌的关系:本世纪30年代至50年代初,医学界盛行用人工气胸术(将空气注射入胸膜腔)治疗肺结核。气胸通常须维持2~3年,隔一定时间就须注入空气补充,而每次补充前都须用X线胸透观察肺萎陷程度,因此病人的胸部长期多次受到相当剂量的X线照射。

为评估胸部X线透视与以后发生乳腺癌的关系,Boice JD等(1977)选择1930~1954年间曾在美国马萨诸塞州的几个肺病疗养院中住院治疗肺结核的女性作研究对象,进行回顾性队列研究。包括接受过气胸疗法的1047名,其他疗法的717名,年龄13~40岁。调查时,505人已死,113人失访,两组失访率相近(5.2%与8.2%)。两组乳腺癌的发生情况如表4-14。

表4-14 肺结核女病人按疗法的乳腺癌发生情况

疗法人数乳腺癌
观察数预期数*率(每1000人/年)
人工气胸10474123.31.5
其他7171514.10.8

*预期数根据康涅狄克州女性年龄别乳腺癌发病率计算

气胸组的SMR=100×41/23.3=176,气胸组的发病率比其他疗法组高出近1倍(RR=1.9)。观察数与期望数的差异x2=12.7,p<0.001。结果提示长期多次受小剂量X线胸部照射的女性10~15年后乳腺癌发生率较高。