
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于数据驱动的全球基因组新生儿筛查计划遗传病基因优先级评估模型构建
【字体: 大 中 小 】 时间:2025年05月27日 来源:Genetics in Medicine 6.7
编辑推荐:
为解决新生儿测序(NBSeq)项目中基因选择标准不统一的问题,研究人员通过整合27个NBSeq项目的4,390个基因特征数据,建立机器学习模型预测基因优先级。结果显示:美国统一筛查推荐面板(RUSP)基因的纳入率提升74.7%,疾病自然史和治疗有效性证据分别贡献29.5%和17.0%的纳入权重。最终开发的增强树模型预测准确率达84%(AUC=0.915),为全球NBSeq提供动态评估工具。
随着基因组测序技术成本的降低,全球已有超过30项研究正在探索将新生儿测序(NBSeq)应用于扩展传统新生儿筛查范围。然而令人惊讶的是,不同项目间基因选择差异巨大——从134到4,299个基因不等,仅有74个(1.7%)基因被80%以上项目共同纳入。这种"基因选择混乱"现象暴露出缺乏标准化评估体系的严峻问题:哪些基因真正值得纳入公共卫生筛查?如何平衡科学证据与区域差异?
为回答这些问题,研究人员开展了一项开创性研究。通过系统收集27个NBSeq项目中4,390个基因的25维特征数据,研究团队首次构建了基因优先级的量化评估体系。令人瞩目的是,该成果发表在医学遗传学领域顶级期刊《Genetics in Medicine》上,为全球新生儿基因组筛查提供了首个数据驱动的决策工具。
研究采用三大关键技术:1) 跨国NBSeq项目数据整合,建立包含27个项目4,390个基因的多维度特征数据库;2) 回归分析识别关键预测因子,包括RUSP(美国推荐统一筛查面板)状态、OMIM(在线人类孟德尔遗传数据库)证据等级等;3) 基于XGBoost算法构建机器学习模型,通过13个核心预测变量实现基因优先级排序。
【结果】
Purpose
研究明确了NBSeq项目基因选择的巨大异质性,揭示标准化评估体系的紧迫需求。
Methods
开发的新型数据架构捕获基因层面25类特征,包括临床可操作性、疾病严重度等维度。
Results
关键发现包括:RUSP基因的纳入概率显著提升74.7%(CI:71.0%-78.4%);具有明确自然史证据的基因增加29.5%纳入可能(CI:24.6%-34.4%);存在有效治疗方案的基因提高17.0%入选率(CI:12.3%-21.7%)。机器学习模型展现出卓越预测性能(R2=84%, AUC=0.915)。
Conclusion
研究构建的动态评估框架可随新证据自动更新,首次实现基因优先级的量化排序。
这项研究具有三重里程碑意义:首先,建立的机器学习模型突破传统专家共识的局限性,使基因选择从"经验驱动"转向"证据驱动";其次,揭示RUSP作为筛查"金标准"的显著影响力,为国际协调提供基准;最后,开发的评估框架具有自适应能力,可整合新发现的基因-疾病关联证据。该成果不仅为各国NBSeq项目提供决策支持工具,更开创了公共卫生基因组学领域数据驱动评估的新范式。尤其值得注意的是,模型对治疗有效性和自然史证据的量化权重,为罕见病研究资源分配提供了科学依据,将显著提升新生儿筛查的投入产出比。随着更多国际项目的参与验证,这一框架有望发展成为全球新生儿基因组筛查的"活标准"。
生物通微信公众号
知名企业招聘