
-
生物通官微
陪你抓住生命科技
跳动的脉搏
表观遗传预测因子在多元人群中的性能差异:种族/性别对DNA甲基化生物标志物准确性的影响
【字体: 大 中 小 】 时间:2025年04月10日 来源:Clinical Epigenetics 4.8
编辑推荐:
编辑推荐:本研究针对表观遗传预测因子(如DNA甲基化时钟)在训练样本多样性不足的问题,通过分析NHANES 1999-2002周期2,532名≥50岁成人数据,发现非西班牙裔黑人和墨西哥裔美国人群体中血浆蛋白预测因子(如B2M、Cystatin C)和表观遗传时钟(如Hannum、Weidner时钟)的相关系数显著低于非西班牙裔白人群体,提示当前表观遗传工具在跨人群应用时需优化训练样本代表性。
在生命科学领域,表观遗传学(研究不改变DNA序列的基因表达调控机制)正以前所未有的速度发展。其中,基于DNA甲基化(DNAm)的生物标志物已成为预测年龄、疾病风险和生理状态的重要工具。然而,这些看似强大的预测工具背后隐藏着一个不容忽视的问题——它们的训练数据主要来自欧洲裔人群,这种样本选择的局限性可能导致预测模型在其他种族群体中表现不佳。正如一位研究者所言:"我们正用单一群体的数据解读全人类的生命密码。"
这种数据偏差带来的影响是深远的。以表观遗传时钟(通过DNAm模式预测生理年龄的算法)为例,它们被广泛应用于衰老研究、疾病风险评估甚至司法鉴定领域。如果这些工具在不同种族群体中表现不一致,可能导致健康风险评估的偏差,进而影响医疗决策的公平性。更令人担忧的是,这种偏差正在形成恶性循环:由于早期研究缺乏多样性,后续研究继续沿用这些有偏见的工具,使得少数群体的健康需求被系统性忽视。
针对这一关键问题,斯坦福大学的研究团队开展了一项开创性研究。他们利用美国国家健康与营养调查(NHANES)1999-2002周期的数据,系统评估了多种表观遗传预测因子在2,532名50岁以上成年人中的表现差异。这项研究特别关注了种族/民族(包括墨西哥裔、非西班牙裔黑人和白人等)和性别对预测准确性的影响,相关成果发表在《Clinical Epigenetics》上。
研究采用了多层次的实验设计和方法体系。首先,利用Illumina EPIC BeadChip阵列对全血样本进行DNA甲基化检测,并通过严格的质量控制流程确保数据可靠性。研究评估了7种表观遗传时钟(包括Horvath panTissue、Hannum、Skin&Blood等)、DNAmTL端粒长度估计器、4种血浆蛋白预测因子(B2M、CRP、Cystatin C、HbA1c)和6种白细胞比例估计器的性能。通过与NHANES提供的实验室测量结果(包括实际年龄、端粒长度、血浆蛋白水平和血细胞计数)进行对比,采用Pearson相关系数和绝对中位误差(MAE)作为主要评价指标。统计分析方法包括分层bootstrap检验(10,000次迭代)和多变量线性回归,并调整了社会经济地位(SES)和细胞组成等混杂因素。
研究结果揭示了令人关注的群体差异。在"整体评估"部分发现,虽然所有预测因子在总体样本中均显示显著相关性,但表观遗传时钟和细胞比例估计器表现最佳。例如,Zhang时钟在非西班牙裔白人中的相关系数高达0.92,而Weidner时钟在非西班牙裔黑人中仅0.46。血浆蛋白预测因子的表现差异更为明显,B2M预测因子在非西班牙裔白人中的相关性(r=0.56)显著高于其他种族群体。
"Bootstrapped差异分析"部分通过10,000次重抽样证实了这些差异的统计学显著性。非西班牙裔黑人和墨西哥裔美国人群体在多数预测因子上表现较差,特别是B2M预测因子在这两个群体中的相关性分别比白人群体低0.24和0.11。值得注意的是,这种差异模式在调整样本量后依然存在,排除了样本量不平衡的干扰。
"回归分析"部分进一步证实,即使在调整了SES和细胞组成后,种族/民族仍然是预测性能差异的独立影响因素。例如,B2M预测因子在非西班牙裔黑人中的关联强度比白人群体低0.04(95%CI:-0.06至-0.03),这种差异具有高度统计学意义(p<0.05)。
在讨论部分,研究者指出这些发现具有重要的理论和实践意义。从方法学角度看,当前表观遗传预测因子的开发过于依赖便利样本,缺乏对样本多样性的系统考量。训练样本中欧洲裔人群的过度代表可能导致模型学习了群体特异性模式,而非普适性规律。从应用角度看,这些差异可能影响健康风险评估的准确性,特别是在医疗资源分配和公共卫生决策方面。
该研究的创新性在于首次系统评估了表观遗传工具在多元人群中的表现差异,并采用多种统计方法验证了差异的稳健性。然而,研究者也指出若干局限性,如种族分类基于社会建构的类别而非遗传背景,以及未能涵盖所有潜在的环境影响因素。
这项研究为表观遗传学领域敲响了警钟——生物标志物的开发必须重视样本多样性。正如研究者强调的:"每个预测因子都至少在一个种族/民族或性别群体中表现出显著差异,这种普遍性令人警醒。"未来研究应当致力于构建更具代表性的训练样本,并开发能够适应群体差异的算法。只有如此,表观遗传学才能真正实现其促进健康公平的承诺。
生物通微信公众号
知名企业招聘