
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基因组研究中群体描述符数据模型的构建与应用
【字体: 大 中 小 】 时间:2025年06月13日 来源:AJHG 9.8
编辑推荐:
来自NIH资助的多人群多基因风险评分方法(PRIMED)联盟的研究人员,针对基因组研究中群体描述符(如种族、民族、国籍等)缺乏标准化定义和系统化管理的现状,开发了一种可追溯、可重复的数据模型。该模型通过保留数据细粒度特征,避免社会身份与生物学概念的混淆,为国际协作和临床转化提供了科学严谨的技术支撑。
基因组学研究领域长期面临群体描述符(population descriptors)的标准化困境——诸如种族(race)、民族(ethnicity)、国籍(nationality)等术语常被随意使用,且多源自政治或行政惯例。这种混乱不仅导致信息丢失,更可能引发临床转化时的潜在风险。
美国国立卫生研究院(NIH)资助的PRIMED联盟提出突破性解决方案:一套支持细粒度数据保留的智能数据模型。该模型犹如"基因数据翻译官",通过三层创新设计——
特别值得关注的是模型对多基因风险评分(Polygenic Risk Score, PRS)研究的支持。当研究人员分析GWAS
数据时,系统会自动标注"拉丁裔(Latino)"等标签的具体采集场景,避免将行政分类错误等同于遗传群体。
这项技术已展现三大优势:
• 保留原始数据90%以上的元信息
• 支持跨研究中心的协同分析
• 有效防范"生物决定论"的错误推论
正如研究者强调的:"好的数据模型应该像棱镜——既能分解出社会文化因素的七彩光谱,又不扭曲遗传学数据的本真色彩。"这项成果为后COVID-19
时代的大规模人群基因组计划提供了关键基础设施。
生物通微信公众号
知名企业招聘