计算策略招募优化"全民健康计划"队列的代表性与覆盖度研究

【字体: 时间:2025年07月05日 来源:npj Digital Medicine 12.4

编辑推荐:

  本研究针对大型生物医学数据库(如"全民健康计划"All of Us)中群体代表性不足的问题,开发了基于Kullback-Leibler散度(KLD)的双目标优化算法,通过动态分配招募资源显著提升了队列与美国人口普查(Census)的相似性(代表性)和各人口分组的均衡性(覆盖度)。研究团队利用2017-2022年真实招募数据验证,该方法可使68%人口亚组达到理想分布,为大规模生物医学研究提供了可操作的招募策略模板。

  

在人工智能重塑医疗研究的时代,生物医学数据的"代表性鸿沟"正成为制约科学发现的瓶颈。美国国家医学院报告指出,临床试验中群体代表不足导致的研究结果偏差,可能在2020-205年间造成数千亿美元经济损失。更严峻的是,当机器学习模型(如分类器)在缺乏代表性的数据上训练时,对少数群体的预测准确率会系统性降低。这种"数据偏见"不仅影响科学可靠性,更会侵蚀公众对研究的信任——这正是"全民健康计划"(All of Us Research Program)立志构建"美国史上最多元健康数据库"的核心动因。

由范德堡大学等机构组成的跨学科团队在《npj Digital Medicine》发表的研究,创新性地将流行病学概念转化为可计算的优化目标。研究者定义"代表性"为队列人口分布与普查数据的相似度(KLD(C||P)),"覆盖度"为各亚组分布的均衡性(KLD(C||U))。通过分析26万余名具有电子健康记录(EHR)站点标识的参与者数据,团队开发出动态资源分配算法,在保持总招募量不变前提下,使代表性指标改善18%(KLD从0.1834降至0.1508),覆盖度指标提升9%(KLD从1.0450降至0.9557)。

研究关键技术包括:1) 基于50个EHR站点的历史招募数据构建响应分布矩阵;2) 采用Dirichlet分布模拟站点人口特征的不确定性;3) 设计含资源分配约束(最大最小比≤148)的双目标优化函数;4) 通过季度更新的迭代策略调整资源分配。特别值得注意的是,算法能自动识别关键站点——如优先增加纽约783站点(亚裔代表率达普查水平)和洛杉矶412站点(非裔代表突出)的招募资源,同时减少波士顿305站点等人口分布趋同站点的投入。

【当前All of Us招募状态】
分析显示,该项目已成功使69.42%参与者来自传统研究不足群体(UBR),其中45.15%为种族/族裔少数群体,接近其75%和45%的招募目标。但亚裔(特别是非西班牙语裔亚裔男性)和太平洋岛民群体仍持续低于普查水平。时序分析揭示疫情后招募策略变化:2020年前侧重覆盖度提升(黑人参与者占比达26.4%峰值),2021年后转向更高普查代表性。

【战略招募模拟结果】
在21个季度(2017-2022)的仿真中,算法使目标人口亚组比例从58%(35/60组)提升至68%(41/60组)落入"理想区间"(介于普查比例与均匀分布之间)。图7的提琴图直观显示,非西班牙语裔亚裔、太平洋岛民等群体的分布显著改善。站点资源分配呈现适应性特征:芝加哥321站点(太平洋岛民代表突出)保持高优先级,而费城944站点(非裔代表突出)资源分配增加10倍,匹兹堡699站点(UBR比例低)则减少投入。

【方法论创新价值】
研究突破体现在三方面:首先将熵理论中的KLD指标扩展为可平衡的双目标函数,通过超椭圆(n=0.522)量化最优解集;其次利用真实世界招募数据(而非假设分布)验证算法;最后将政策空间从先前研究的9个站点扩展到50个,更贴近实际复杂度。作者特别指出,均匀分布虽最大化覆盖度但不符合现实(如90%参与者需来自少数族裔),因此需在"理想数学构造与现实招募目标间取得平衡"。

这项研究为大规模队列建设提供了可量化的决策工具。正如讨论部分强调,当算法识别出纽约三站点(752/783/689)虽处同一区域但人口特征互补时,证明"有限分布差异也能显著影响队列质量"。未来可将该框架扩展至收入、性取向等更多维度,或用于评估新站点的开设价值。对于正致力于"健康中国2030"等大型队列建设的国家而言,这种计算驱动的方法尤其具有借鉴意义——它证明通过科学优化有限的招募资源,完全可以在不增加成本的前提下,构建更具代表性和科研价值的人群数据库。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号