
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于国家临床队列协作组电子健康记录库的HIV感染者及高危人群计算表型识别研究
【字体: 大 中 小 】 时间:2025年07月13日 来源:JMIR Medical Informatics 3.1
编辑推荐:
推荐:本研究针对电子健康记录(EHR)中HIV感染者(PLWH)、暴露前预防(PrEP)和暴露后预防(PEP)使用者的识别难题,通过国家临床队列协作组(N3C)的多源临床数据,开发了融合诊断代码、实验室检测和药物暴露的计算表型算法。研究成功识别132,664例高置信度PLWH及36,088例PrEP使用者,并发现PLWH的COVID-19相关住院率(3.5%)和死亡率(0.6%)显著高于非HIV人群。该算法为大规模HIV流行病学研究提供了可靠的表型识别工具。
在艾滋病防治领域,准确识别HIV感染者和高危人群是流行病学研究和临床干预的基础。然而,随着暴露前预防(PrEP)和暴露后预防(PEP)的广泛应用,以及抗逆转录病毒药物如利托那韦被用于COVID-19治疗,传统基于诊断代码的识别方法面临严重误分类风险。更棘手的是,不同医疗系统的电子健康记录(EHR)数据标准不一,实验室检测结果与用药记录分散,使得跨机构研究举步维艰。
为破解这一难题,研究人员利用美国国家临床队列协作组(N3C)这一包含98个医疗站点、2200万个体临床数据的国家级EHR资源库,开展了一项开创性研究。他们创新性地整合了诊断代码、实验室检测(如HIV病毒载量VL和CD44计数)及药物暴露数据,构建了四类人群的计算表型算法:HIV感染者(PLWH)、PrEP使用者、PEP使用者以及非HIV人群。这项发表在《JMIR Medical Informatics》的研究,不仅解决了抗逆转录病毒药物多适应症带来的分类干扰,更建立了可调整置信度的分层识别体系。
研究团队采用观察性医疗结局合作组织(OMOP)通用数据模型标准化处理来自93个医疗站点的EHR数据。通过系统医学命名法(SNOMED)和RxNorm编码识别HIV相关诊疗事件,并开发了包含12项分类标准的置信度评估系统。为验证算法可靠性,研究人员还进行了包含120例样本的临床医生盲法注释评估。
研究结果显示,在20,928,656人的队列中,算法成功识别152,282例PLWH(0.7%),其中74,809例(49.1%)通过"诊断+实验室+用药"组合确认。特别值得注意的是,针对COVID-19时代特有的分类挑战,研究排除了43,149例仅使用利托那韦(可能为COVID-19治疗)的个体。PrEP使用者中57.5%具有高置信度识别特征,且 demographics显示该群体更年轻(中位年龄36岁)、男性占比高(87.9%),与流行病学特征相符。
在COVID-19相关分析中,PLWH展现出显著更差的临床结局:COVID-19相关住院率(3.5%)是非HIV人群(2%)的1.75倍,死亡率(0.6%)也更高。令人意外的是,尽管PLWH的基础疫苗接种率(11.6%)与普通人群相当,但加强针接种率(21.5%)明显低于PrEP使用者(34.8%),提示该群体的免疫强化可能存在障碍。
讨论部分强调,这项研究创建了目前美国最大的EHR来源PLWH研究队列,其创新性体现在三个方面:首次系统解决了PrEP/PEP使用者与PLWH的区分难题;建立了应对COVID-19治疗药物干扰的分类规则;开发的置信度分层系统允许研究者根据研究需求平衡灵敏度与特异度。研究者特别指出,该算法识别出的PLWH中13.2%的CD44计数≤200 cells/μL,这一免疫抑制群体正是COVID-19重症高风险人群,凸显了该资源对公共卫生应急研究的价值。
这项研究的现实意义在于,其开发的表型算法已通过N3C公共GitHub仓库开源,可直接应用于其他OMOP标准化的EHR数据库。随着长效注射用PrEP的普及,研究团队表示正在扩展算法以包含卡博特韦等新型预防药物。该成果不仅为HIV相关健康差异研究提供了可靠工具,其方法论对其他慢性病的EHR表型识别也具有重要借鉴价值。
生物通微信公众号
知名企业招聘