NHANES 数据库为何这么火?

数据够「全」,多科室适用。包含两大模块的数据,通过问卷、实验室检查、体格检查等各项数据,构建了一个潜力巨大的综合临床数据库。可以覆盖大部分临床科室的选题。

数据够「多」,现已完成 11,600+ 人群的数据调查。并且每两年都会再进行一次数据更新。无需申请授权,基本免费使用。

目前全球范围内大概有 6.5 万篇文献与 NHANES 数据库相关,其中有近 2000 篇数据直接使用 NHANES 数据库的数据发表。这些文章中不乏 30 分以上的高分文章,近些年发表的文章大多在 2-5 分这个区间。想要快速发表一篇 SCI,靠挖掘 NHANES 数据库真的有希望!

这里,小编整理了一些大家关心的关于NHANES数据库的问答,仅供大家参考!

Q1:进行数据库挖掘需要具备那些能力?

A1:需要具备读懂 R 代码的能力和理解报错的能力。

Q2:看到文献里有「肾小球滤过率血尿酸」这种指标,但是在数据库找不到,这两个数据具体在哪儿?以后遇到这种情况怎么办?

A2:以 「NHANES」和「kidney / renal 」为关键词在 Pubmed 中搜索,文献示例:《不同 eGFR 估计方程与心血管疾病病人死亡率的关系: 基于 NHANES 数据库的回顾群组调查研究》

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9509194/

(component 中有问卷调查-肾脏状况)

Q3:在 NHANES 里如何去诊断脂肪肝和肝硬化呢?

A3:脂肪肝诊断文献示例:《高血清25-羟基维生素 D 与美国成年非酒精性脂肪心血管死亡率的低全因和低肝病有关》

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9571761/

Q4:有「不孕症」的相关文献吗?

A4:有的。文献示例:《美国体重指数与女性不孕症之间的关系》

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8865871/

(来自2013-2018年全国健康和营养调查的数据)

Q5:用 R 提取2011-2012年的人口统计学数据,是下载后导入到 R 里面,还是 R 能连接到 NHANES 数据库直接下载?

A5:都可以!用 readxpt。

Q6:饮食炎症指数如何计算?

A6:文献示例:《炎症饮食、糖化血红蛋白和老年人认知功能机能障碍之间的关系: 基于 NHANES 2011-2014》

https://pubmed.ncbi.nlm.nih.gov/35491786/

Q7:「死亡数据」在哪里找?

A7:可以链接到死亡数据。死亡数据在另外的网站,然后通过 ID 整合在一起。

Q8:有「肿瘤」方向的研究吗?

A8:以 「NHANES」+「cancer 」在 Pubmed 中搜索。示例文献:《美国成年人群丙烯酰胺和癌症死亡率生物标志物之间的关系: 来自 NHANES 2003-2014的证据》

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9554530/

更具体内容课程中也会有详细的介绍。

Q9:NHANES 每年收集资料的人群是随机的吗?会有固定追踪的资料或者有重复吗?

A9:是抽样进行。有连续调查的资料。

Q10:检索后发现「牙周疾病 and NHANES」结果有530篇, 这个数量算多吗?可挖掘的还得具体看数据模块吗?

A10:算比较多。是否可以挖掘需要看具体模块。

Q11:「药物」相关的能挖掘吗?

A11:可以的。

Q12:「儿科」方向的能挖掘吗?

A12:可以。

Q13:有「眼科」的数据可以挖掘吗?

A13:有青光眼、糖尿病视网膜病变、老年黄斑变性等数据。

Q14:NHANES 数据库有「风湿类疾病」的诊断吗?

A14:骨关节炎、痛风等比较多。

Q15:「血液科」方面的数据多吗?

A15:非常多。

Q16:「精神科」方面的数据多吗?

A16:较多。

Q17:「影像」方面的数据多吗?

A17:有数值类结果,图像类结果没有。

Q18:「麻醉」方面的数据有吗?

A18:有疼痛管理等,围术期管理基本没有。

Q19:多重插补之后,怎么选择最佳的插补数据集(默认形成5个数据集),可以用 pool 合并分析吗?像 NHANES 数据,都是复杂加权数据,可以用 pool 函数吗?对于这个情况应该怎么处理?

A19:是的,复杂加权的多重插补不太一样,可以试一下用 jomo 包。

Q20:有「药物不良反应」的数据吗?

A20:暂时没有。

Q21:前列腺癌的数据多吗?有没有病理数据资料?

A21:前列腺数据多,病理数据基本没有。

Q22:「检验」方面的数据多吗?

A22:五大模块中有专门的实验室检查结果,数据非常多。

Q23:如果想统计 A 变量的平均数,可以入组的只有一大部分有结果,这样怎么统计均数呢?是直接删除没结果的数据吗?

A23:用均值做 missing data 填补,则均值就是删除 na 后的均值。但是严谨来说,要注意缺失是不是非随机的。

Q24:多元回归分析总的 p 值 <0.05,分层分析之后各组 p 值都 >0.05,应该怎么解释?

A24:在亚组中没有显著性。

Q25:不加权可以吗?高分文章都要加权吗?

A25:一定要加权。

Q26:可以做限制性三次立方条样(RCS)吗?

A26:可以的。课程中会有详细介绍。

Q27:课程里有画图的内容吗?比如生存曲线,ROC曲线,森林图。可以做分层分析吗?

A27:有的。可以做分层分析。

Q28:NHANES 中疾病该如何确定?

A28:NHANES 有给出疾病范围,可以参考相关文献。

文中内容来源于网络,版权归原作者所有,如有侵权请联系后台处理

更多推荐