编辑推荐:
本综述系统介绍了美国国立卫生研究院(NIH)大型精准医学项目“All of Us”研究计划中的妊娠队列。文章详细阐述了如何利用HIPPS算法从电子健康记录(EHR)中识别妊娠参与者,并展示了该队列在人口统计学、生命体征、实验室数据、合并症及可穿戴设备数据等方面的丰富信息。作者强调了该数据集在克服传统产科研究数据壁垒(如行政账单数据、出生证明数据的局限性)方面的独特优势,及其在实现妊娠期、并发症及长期母婴健康结局的全生命周期研究方面的巨大潜力,鼓励研究人员利用这一资源深化对妊娠相关健康问题的理解。
DEVELOPING THE ALL OF USPREGNANCY COHORT
“All of Us”研究计划是一项由美国国立卫生研究院(NIH)于2018年启动的大型国家级数据集,旨在通过整合电子健康记录(EHR)、调查问卷、基因组学和可穿戴设备数据来全面捕捉参与者的健康状况。尽管该数据集潜力巨大且可供研究使用,但针对妊娠的具体分析仍较少。本研究旨在向研究人员介绍“All of Us”中的妊娠参与者,突出其优势、局限性及潜在应用场景,鼓励利用这一信息独特的数据集获得对妊娠的新见解。
研究基于“All of Us”研究员工作台的Curated Data Repository v7 Controlled Tier数据,数据收集时间范围为2018年5月至2022年7月1日。参与者提供的调查信息通过安全在线门户获取,包括来自“基础信息”、“生活方式”、“整体健康”、“个人与家族健康史”、“健康社会决定因素”以及“医疗保健获取与利用”等公开调查的数据。为识别“All of Us”数据集中的妊娠参与者,研究应用了名为HIPPS(基于层级和规则的妊娠事件推断整合妊娠进展特征)的算法。该算法最初在国家临床队列协作数据 enclave 中设计并验证,其代码可在GitHub上公开获取。为验证HIPPS算法的使用,研究者将其结果与“整体健康调查”中问题10(“您目前是否怀孕?”)的回答为“是”的参与者进行了比较。
在确定研究队列后,通过数据集构建器(Dataset Builder)从EHR数据中获取妊娠队列的人口统计学、生命体征、医疗、实验室、外科、妇科、产科和生活方式信息,并使用Python 3.10.12编程语言的Jupyter Notebooks进行分析。所有代码已上传至NIH “All of Us” GitHub。
THE ALL OF USPREGNANCY COHORT
在413,457名参与者中,应用HIPPS算法到EHR数据后,识别出31,865名(7.7%)妊娠参与者,其中15,795名(3.8%)有超过一次妊娠。共识别出59,986次妊娠的信息。被HIPPS识别的参与者中,有3,944名(12.4%)在回答“整体健康调查”问题10时正处于妊娠期。
妊娠参与者的特征,包括分娩时的孕周,已列示。入组时的中位年龄(52岁)与整体“All of Us”研究参与人群相似。妊娠中位年龄为30.2岁,大多数妊娠(68.2%)发生在2015年至2024年之间。妊娠参与者的种族和民族分布反映了更大的研究人群。多数人处于就业状态(50.4%)并完成了一些大学教育(64%)。在入组“All of Us”时,队列中报告有过妊娠的参与者大多数自称为女性(98%)和异性恋(28,438;89.3%)。
Medical and Surgical Information from Participant Survey Data
医疗史来自“个人与家族健康史”调查,反映了在13,384名(占31,865名妊娠应答者的42%)完成该调查的个体中,发生在妊娠状态之前、期间或之后的状况。高血压(2,037;15.2%)和糖尿病(1,077;8%)很常见,精神状况如抑郁症(4,317;32.3%)和焦虑症(3,769;28.2%)也是如此。有2,102名参与者(6.6%)报告有残疾。
有724名参与者在妊娠期间(6个月内)完成了“个人与家族健康史”调查,并根据HIPPS算法和“整体健康调查”问卷被估计为妊娠状态。表格描述了该群体中常见疾病的患病率。
Obstetric and Gynecologic Data
参与者的产科和妇科信息从EHR数据中获取,使用了标准化的观察性医疗结局合作伙伴关系(OMOP)概念。通过OMOP的词汇系统将国际疾病分类(ICD)等源编码映射到标准概念,并用于HIPPS算法以识别这些结局。在妊娠参与者中,1,404名(4.4%)在妊娠期间患有妊娠期糖尿病,733名(2.3%)患有先兆子痫和其他妊娠期高血压疾病。产前产科并发症(如胎盘植入,0.2%)、产程异常(宫口扩张停滞,1%;肩难产,1.2%)以及产时或产后并发症(绒毛膜羊膜炎,1.87%;产后出血,1.9%)较为罕见,可能反映了EHR数据编码不足的问题。关于妇科疾病,3,709名个体(11.6%)有子宫肌瘤病史;1,711名(5.4%)有子宫内膜异位症病史;17,496名(54.9%)有盆腔痛病史;2,929名(9.2%)有不孕症病史。
Vital Signs
妊娠期间的生命体征数据可用于23,705名参与者(74.4%)。妊娠期间测量的中位心率为每分钟85次。17,412名(54.6%)在妊娠期间有EHR血压数据可用的参与者的收缩压和舒张压分布如图所示。第一孕期平均体重指数(BMI,计算方式为体重公斤数除以身高米数的平方)为30.2,第二孕期为31.4,第三孕期为33.3。
Laboratory and Radiographic Data
从EHR中识别的实验室检查结果与妊娠的生理变化一致。在妊娠的“All of Us”参与者中,3,213名(10.1%)有血清胆固醇、甘油三酯、高密度脂蛋白和低密度脂蛋白水平的数据可用。在5,349名接受糖化血红蛋白(HbA1c)检测的妊娠参与者(16.8%)中,1,928名(36%)结果反映糖尿病前期或糖尿病。常见性传播感染筛查率如下(阳性数/检测数):衣原体(146/10,873,1.3%)、梅毒(91/9,150,1%)、乙型肝炎(270/13,258,2.0%)和丙型肝炎(98/4,941,2.0%)。基因筛查(主要是囊性纤维化)数据可用于2,522名参与者(7.9%),654名(2.1%)报告进行了无创产前检测(cell-free DNA testing)。由于这些结果通常通过文档扫描而非可提取的离散字段报告,因此可能被低估。从EHR获得的胎儿超声数据显示,首次超声检查的中位孕周为18.7周,平均每次妊娠进行3.7次超声检查。
Medication Use
从识别出的妊娠期内的EHR中提取了药物使用信息。妊娠期间记录最多的药物包括精神科药物(舍曲林、氟西汀)、抗病毒药物(伐昔洛韦、奥司他韦、阿昔洛韦)、糖尿病药物(胰岛素、二甲双胍、格列本脲)、抗高血压药物和阿司匹林。抗高血压药的使用在该人群中有2,517人报告(7.9%),其中拉贝洛尔1,892人(5.94%),肼屈嗪957人(3%),硝苯地平765人(2.4%)。约2,130人(6.7%)被识别为使用阿司匹林。产时产科药物的识别率低于预期(催产素22.7%,米索前列醇14.5%,地诺前列酮2%)。
Lifestyle Data
一组妊娠参与者在根据HIPPS算法和“整体健康调查”问卷估计的妊娠期间或临近时间(6个月内)完成了“生活方式”调查(n=3,944)。有180名参与者(4.6%)报告吸烟;37人(1%)报告吸雪茄,63人(1.6%)报告使用电子尼古丁产品,73人(1.9%)报告吸食水烟,14人(0.4%)报告使用无烟烟草。共有1,529名参与者(38.8%)报告在典型日子里饮用一到两杯酒精饮料。
Wearables Data
可穿戴设备数据可用于303名(1%)在使用可穿戴设备时处于妊娠期的参与者。其中,300名参与者有日内步数数据,301名有活动摘要数据,247名有心率水平数据,280名参与者有睡眠摘要数据。
DISCUSSION
利用HIPPS算法,识别出31,865名妊娠参与者(占Curated Data Repository v7 Controlled Tier中413,457人的7.7%),在地理、种族、民族、教育和社会经济地位方面具有广泛代表性。妊娠女性的 demographics 和健康特征反映了更大队列的情况,生命体征和实验室数据证实了妊娠期预期的生理变化。在孕周评估方面存在局限性,被识别为早产的比例异常高,与国家统计数据不符。
尽管按信息子集划分的数据集完整性各不相同,但“All of Us”是妊娠数据的一个独特来源。迄今为止,女性生殖事件对慢性病发展和其他健康结局影响的理解研究尚不充分。重要的是,本分析证明了该数据集可用于研究妊娠、妊娠并发症与日后健康结局之间关联的能力。
“All of Us”数据集有几个优势。通过结合调查、EHR、可穿戴设备和基因组数据,整个数据集使得能够对正在或曾经怀孕的参与者进行横断面研究。由于调查包含关于健康社会决定因素(例如教育、住房、食品安全)的细粒度数据,“All of Us”数据库允许研究人员评估这些因素对妊娠结局和女性全生命周期的影响。“All of Us”数据对整个研究界的可及性是独特的,允许不同学科的研究人员通过中央平台访问去标识化数据。“All of Us”的大量参与者允许进一步分层,这在大多数数据集中可能会产生太少的参与者而无法进行有意义的比较。
使用“All of Us”数据时应注意几个局限性。首先,这些数据反映了一个愿意并有能力参与需要多次调查、抽血和获取遗传信息的研究的人群。尽管“All of Us”的招募方法特别旨在通过与被生物医学研究代表不足的人群建立关系和真实的社区互动来克服健康工人效应和 ascertainment 偏倚,但本文描述的妊娠队列并不具有全国代表性。
第二个局限性涉及EHR中离散数据的可用性:诊断编码可用,但医生笔记目前不可用;处方药报告更准确,但非处方药可能未被捕获(例如,只有6.7%的妊娠参与者有阿司匹林使用记录)。此外,尽管“All of Us”的纳入标准允许广泛的人群抽样,但EHR数据的可用性仅限于参与的医疗组织和诊所。如果参与者表明自己怀孕但在非参与诊所或医院接受护理,则该信息对“All of Us”数据集不可用。未来版本的“All of Us”数据将允许参与者独立传输其数据,从而缓解此问题。
第三,由于大多数调查在入组时完成,所列状况(例如心血管疾病)相对于妊娠的时间顺序无法明确确定。孕周在大多数EHR中不是一个容易获得的字段,这导致早产数量以及无法识别孕周的分娩数量异常高。尽管与先前发表的报告相似,但早产率比国家生命统计调查的预期率高出三倍以上。由于孕周是估计的而非确定的,产后常见药物(例如用于产后或术后疼痛缓解的阿片类药物)很可能被错误地表示为使用率过高(55%),远高于人群估计值。
Future Directions
“All of Us”的纵向设计及其调查评估的持续动态性质允许进行针对妊娠的新颖研究。截至2025年3月,在“All of Us”的16,000多个项目中,估计有80个项目正在研究妊娠。通过将注册范围扩大到包括儿科参与,“All of Us”将为研究人员提供研究纵向健康结局的机会,并提供数据来回答可能有益于儿童和家庭全生命周期的广泛科学问题。该计划的目标是在妊娠前、妊娠期间和妊娠后从100万或更多参与者那里收集健康数据,反映美国所有人群,并作为推进科学、实现全民精准医学的资源。