衰老时钟的迷思:从生物年龄的抽象概念到健康结局的直接预测

《npj Aging》:Do we actually need aging clocks?

【字体: 时间:2025年12月21日 来源:npj Aging 6

编辑推荐:

  本文针对衰老时钟(Aging Clocks)这一热点领域,系统性地提出了一个根本性质疑:我们是否真的需要生物年龄这一抽象概念?作者通过对比专家风险评分、直接结局预测模型及新兴大健康模型(Large Health Models, LHMs),揭示了当前衰老时钟在定义模糊、验证不一致及忽略预测不确定性等方面的核心挑战。文章呼吁研究者应明确证明衰老时钟相较于现有替代方案的优越性,并提出了构建基于理论驱动和不确定性估计的下一代衰老时钟的范式,为长寿医学的精准化发展提供了关键的理论反思。

  
在追求长寿与健康的道路上,科学家们一直渴望找到一把能够精准衡量人体“真实年龄”的尺子。这把尺子,就是所谓的“生物年龄”(Biological Age)。它不同于我们身份证上的“时序年龄”(Chronological Age),而是试图通过分析血液中的DNA甲基化、蛋白质组、代谢物等分子特征,来反映一个人身体内部的衰老程度和健康状态。基于机器学习算法构建的“衰老时钟”(Aging Clocks)正是实现这一目标的核心工具。
近年来,衰老时钟的研究呈现出爆炸式增长。从表观遗传学(Epigenetics)到蛋白质组学(Proteomics),从临床血液指标到面部图像,甚至X光片,各种数据源都被用来训练衰老时钟模型。这些模型被寄予厚望,有望成为评估抗衰老药物效果的“替代终点”(Surrogate Endpoint),从而大大缩短临床试验的周期;它们也被认为能帮助我们更深入地理解衰老的生物学机制,并提供一个简洁的指标来评估个体的整体健康状况。
然而,在繁荣的表象之下,一个根本性的问题却始终悬而未决:我们真的需要“生物年龄”这个抽象概念吗?为了回答这个问题,来自斯科尔科沃科学技术学院(Skolkovo Institute of Science and Technology)等机构的研究团队在《npj Aging》杂志上发表了一篇题为《Do we actually need aging clocks?》的深度评述。文章对衰老时钟的实用价值提出了尖锐的批判,并系统性地将其与专家风险评分、直接结局预测模型以及新兴的“大健康模型”(Large Health Models, LHMs)进行了对比,最终呼吁研究者们重新审视衰老时钟的构建逻辑。
关键技术与方法
为了系统评估衰老时钟的价值,作者并未进行新的实验,而是采用了文献综述和理论分析的方法。他们首先对“生物年龄”和“衰老时钟”进行了严格的定义,并梳理了其应满足的四个核心标准。在此基础上,作者构建了一个分析框架,将预测健康结局(如死亡、疾病发生)的方法归纳为四种主要范式:
  1. 1.
    专家共识法:基于领域专家知识构建的风险评分系统,如衰弱指数(Frailty Index)、心血管风险计算器等。
  2. 2.
    直接结局预测:利用机器学习(Machine Learning, ML)或人工智能(Artificial Intelligence, AI)模型,直接从生物标志物特征预测具体的健康结局,绕开“生物年龄”这一中间变量。
  3. 3.
    衰老时钟:通过训练模型来估计生物年龄,再将其作为代理生物标志物来预测健康结局。这又分为第一代(以预测时序年龄为目标)和第二代(以预测全因死亡率等结局为目标)时钟。
  4. 4.
    大健康模型(LHMs):受大语言模型(Large Language Models, LLMs)启发,将人类健康视为临床和健康相关事件的纵向序列,直接预测未来的健康事件序列。
作者通过对比这四种范式的优缺点,并结合对现有衰老时钟研究局限性的分析,论证了其核心观点。
研究结果
1. 定义模糊与验证困境
文章指出,生物年龄是一个无法直接观测的抽象实体,其定义高度依赖于训练数据和模型架构。这意味着,每一个新的衰老时钟实际上都在定义自己的“生物年龄”。虽然理论上生物年龄应满足预测寿命、预测疾病发生、区分患者与健康对照等标准,但在实践中,大多数研究仅针对其中一两个标准进行验证,缺乏系统性的评估。例如,许多研究仅通过证明时钟在哈钦森-吉尔福德早衰综合征(Hutchinson-Gilford progeria syndrome)患者中显示出加速衰老,来验证其有效性,但这远不足以证明其作为通用衰老生物标志物的稳健性。
2. 与替代方法的对比
作者将衰老时钟与三种替代方法进行了对比,揭示了其潜在的局限性:
  • 专家共识法:虽然可能忽略隐藏的关系,但具有高度透明和可解释的优势。在缺乏临床共识的衰老生物学领域,构建基于领域特异性标志物(如心脏、肺、认知等)的复合指标,可能比追求单一的、包罗万象的生物年龄更具可行性。
  • 直接结局预测:机器学习模型可以直接预测死亡率、发病率等结局,其目标函数(损失函数)是数学上严谨且明确的。相比之下,通过生物年龄这一中间变量进行预测,不仅增加了模型的复杂性,还可能因信息压缩而削弱预测能力。这类似于用机器学习去推断智力、意识或爱等抽象概念,其可靠性存疑。
  • 大健康模型(LHMs):这是最具潜力的新兴范式。LHMs将健康视为事件序列,能够捕捉健康事件的时序动态和条件依赖关系,从而直接预测未来的健康结局。作者认为,LHMs本质上已经包含了衰老时钟和死亡率预测器所需的属性,甚至可以通过简单的后处理步骤从LHMs的输出中推导出生物年龄的类似物。
3. 衰老时钟与衰老理论
在理解衰老机制方面,文章认为当前用于构建衰老时钟的机器学习方法主要学习的是相关性而非因果关系,无法区分衰老的“驱动者”(drivers)和“乘客”(passengers)。例如,第一代表观遗传时钟可以使用几乎不重叠的CpG位点组合构建出同样准确的模型,这暗示了其背后缺乏统一的生物学机制。因此,衰老时钟目前对揭示衰老根本原因的直接贡献有限,其价值更多在于作为假设生成和追踪干预反应的工具。
4. 简化效应与两种范式
尽管存在诸多问题,作者承认生物年龄作为一个单一、直观的数字,具有强大的“简化效应”,便于非专业人士理解复杂的统计概念。基于此,文章提出了生物年龄估计的两种范式(图2):
  • 第一范式:将生物标志物信息压缩成一个潜变量,旨在直接估计生物年龄或其变化速率。例如第一代表观遗传时钟、DunedinPACE等。
  • 第二范式:首先开发模型来预测多种年龄相关疾病(包括全因死亡率)的风险,然后将这些预测风险聚合为一个统一的生物年龄估计。例如第二代表观遗传时钟(PhenoAge, GrimAge)和临床时钟。
作者认为,第二范式虽然需要大量纵向高质量数据,但能同时确保预测多种健康结局的准确性和泛化性,是构建更可靠衰老时钟的可行路径。
5. 不确定性估计与适用性限制
文章强调,几乎所有已发表的衰老时钟都只提供点估计,而忽略了预测的不确定性(Uncertainty Estimation)。这种不确定性包括数据固有的随机性(偶然不确定性,Aleatoric uncertainty)和模型因遇到训练集之外的数据而产生的额外不确定性(认知不确定性,Epistemic uncertainty)。当将基于健康组织训练的时钟应用于体外重编程细胞(in vitro reprogrammed cells)或胚胎发育等场景时,数据分布的偏移会带来巨大的认知不确定性,导致结论不可靠。因此,作者提出了一个简单的适用性规则:“停留在模型训练所在的领域内”(Stay within the domain the model was trained on)。
结论与讨论
本文对当前衰老时钟研究进行了深刻的反思,并提出了明确的改进方向。作者认为,尽管衰老时钟存在诸多挑战,但其局限性在理论上是可以解决的。关键在于,研究者需要明确其研究目标,并选择最合适的工具。
  • 如果目标是开发临床试验的替代终点或构建直观的健康指标:那么答案是肯定的,但前提是这些时钟必须经过严格验证,能够提供明确的预测不确定性估计。作者主张将时钟构建的逻辑从第一范式转向第二范式,即生物年龄应被重新定义为“一个单一、可解释的数字,它封装了多种年龄相关疾病的风险”。这可以通过在预测多种疾病风险的机器学习模型集合之上构建一个元层(meta-layer),或通过对大健康模型(LHMs)的输出进行后处理来实现。
  • 如果目标是理解衰老的生物学机制:那么答案则不那么明确。虽然一些新兴的衰老时钟(如基于PRC2、转座子或随机性的时钟)显示出理论驱动的潜力,但大多数时钟对衰老理论的贡献有限。作者建议,未来的研究应优先考虑将因果推断框架和基于理论的假设整合到衰老时钟的构建中。
总而言之,本文并非全盘否定衰老时钟的价值,而是呼吁研究者以更严谨、更透明的方式推进这一领域。在长寿医学快速发展的今天,对衰老时钟进行彻底的批判性审视,将有助于我们更清晰地界定其适用范围,并推动开发出真正能够指导临床实践和科学发现的下一代健康评估工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号