目录

1、复杂多阶段抽样调查

2、如何让你的软件知道抽样设计为复杂多阶段抽样?

3、如何正确选择并计算权重

(1)权重类型(只针对2001年后的数据)

(2)权重选择

(3)结合周期计算权重


在讲权重选择和计算之前,大家是否还记得小编在 NHANES数据库数据下载 一文的文末提到下载好的数据不能够利用常规的统计方法直接分析,今天跟大家分享一下,正确分析的前提是什么,也就是如何选择并计算权重

1、复杂多阶段抽样调查

一般情况下,当我们使用统计软件进行数据分析时,软件默认数据的抽样设计是简单随机抽样。但是由于简单随机抽样不适用于大范围的调查,NHANES采用的是复杂多阶段抽样(counties、segments、household和individual),每个人被抽中的概率不等,各阶段抽样数据不独立。所以当我们面对nhanes数据时,如果直接采用常规的统计方法(描述性统计:如计算均值、标准差、百分比;统计推断和模型:如区间估计、T检验、方差分析、回归等)分析会出现问题。这就要求我们在进行这些分析之前经过一定的调整,也就让统计软件知道具体的抽样设计。

2、如何让你的软件知道抽样设计为复杂多阶段抽样?

在上一篇文章中,我们提到下载nhanes数据的时候,除了需要下载参与者的信息外还需要下载抽样调查相关信息(weight,strata,psu)。之所用要下载这部分数据,就是为了在正确分析数据之前,先告诉统计软件nhanes的抽样设计是复杂多阶段抽样。

在R中,利用survery包中的svydesign()方法可以设置抽样方法

nhanesDesign <- svydesign(id      = ~psu,
                          strata  = ~strata,
                          weights = ~persWeight, #nhanes数据分析中weight需要提前计算
                          nest    = TRUE,
                          data    = nhanesAnalysis)

对于复杂抽样的数据,只有正确设置好抽样方案后才能够进行后续的分析。svydesign()方法中,id处传数据中的psu变量,代表告知指初级抽样单位,strata处传strata变量,代表告知分层指标。这个两个下载下来后不需要处理直接传入即可。

svydesign()方法中weigths需要传入一个正确的权重。需要注意的是,在nhanes中不同的变量可能会对应不同的weight,比如,BMI对应的权重是wtmec2yr,age对应的权重是wtint2yr,也就是说一份数据中可能有多个不同的weight,那么该如何得到正确的weight呢?这就涉及到了nhanes数据分析前的权重选择和计算问题了。

3、如何正确选择并计算权重

(1)权重类型(只针对2001年后的数据)

以下列出几种常见的权重类型(基本够用)

变量类型权重类型
in-home interview收集的变量wtint2yr
MEC检查变量wtmec2yr
子样本变量(如:空腹甘油三酯)相应子样本权重(空腹子样本权重:wtsaf2yr)
24-hour dietary recall(day1)变量wtdrd1
24-hour dietary recall(day2)变量wtdrd2

对NHANES数据而言,分析最终使用的权重取决于所纳入的变量。权重选择的核心原则:先明确检测人数最少的变量,然后取该变量对应的权重。

(2)权重选择

①所有变量都是以in-home interview的方式收集,权重采用wtint2yr;

只有研究的所有变量都是以in-home interview的方式收集的,权重才用wtint2yr,如果还有其他方式收集的变量,接着往下看;

②部分变量是以MEC的方式收集的,权重采用wtmec2yr;

如果所有变量只有以in-home interview和MEC检查两种方式收集的,权重就用wtmec2yr,如果还有子样本变量(没有24-hour dietary recall变量),参考第③点选择权重;如果包含24-hour dietary recall变量则直接参考第④点选择权重;

③部分变量是调查子样本的一部分,则采用相应子样本权重;

如果研究的变量同时包括wtint2yr,wtmec2yr以及自样本权重这个三种权重,则选择相应子样本权重;因为所有参与者都接受采访(in-home interview)(人群1),在接受采访的人中部分接受MEC检查(人群2),在接受MEC检查的人中,只有空腹8小时以上的人才检查了空腹甘油三酯(人群3:子样本人群),即人群3(子样本人群)<人群2<人群1,根据权重选择的核心原则,所以选择子样本变量对应的权重为最终权重。

④一些变量来自24小时饮食回忆(24-hour dietary recall)

24小时饮食回忆不属于子样本变量,但是完成这部分调查的参与者其权重比较特殊,一周中工作日和周末的饮食摄入量可能会存在差异,该权重可以调整这些差异。只要研究中有变量是以24-hour dietaryrecall方式收集的(不管是否包括wtint2yr,wtmec2yr或者子样本权重),最终权重都为wtdrd1(第一天)/wtdrd2(2天)。

(3)结合周期计算权重

(合并多个周期时需合并权重,这里只针对1999年后的数据)

先根据以上原则选择相应的权重类型,然后根据合并的周期重新计算,以下以wtint2yr权重为例。总原则:对于任何不包括1999-2000年的2001-2002年及以后的任何周期合并,权重都等于1/周期数*(相应权重)

①如果只合并1999-2000和2001-2002四年(2个周期)的数据,则最终权重为wtint4yr(全部周期中,只有合并了1999-2002四年的数据才有wtint4yr这个权重类型,其他所有的都是wtint2yr);

②如果合并1999-2004六年(3个周期)的数据,需分成1999-2002年(作为整体算2个周期)2003-2004(1个周期)两部分考虑:

1999-2002年(2个周期)的权重为2/3*wtint4yr;

2003-2004年(1个周期)的权重为1/3*wtint2yr

③如果合并2001-2002和2003-2004四年(2个周期)的数据,则最终权重为1/2*wtint2yr;

④如果合并2001-2006六年(3个周期)的数据,因为没有包括1999-2000年的数据,所以最终权重为1/3*wtint2yr。

至此基本可满足大部分研究的权重选择和计算,计算好之后将最终的权重数据传入svydesign()方法中weigths即完成了抽样方式的设置,这样就可以进行后续的分析了,包括根据纳入和排除标准选择最终纳入分析的人群以及统计分析。

更多相关知识可关注以下公众号


Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐