面向生存数据建模的多重校准方法：兼具普适适应性的跨域预测研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月13日 来源：Biometrika 1.4

编辑推荐：

　　传统统计与机器学习常假设训练与测试数据同分布，但现实场景中源域训练数据往往无法充分代表目标域的子人群。针对协变量偏移下的目标无关学习问题，研究人员开发了基于伪观测值（pseudo-observations）的黑箱后处理提升算法，通过生存概率和限制平均生存时间（RMST）的多重校准（multicalibration），在未标记目标域中实现与逆倾向得分加权（IPSW）相媲美的预测性能，同时保障跨子人群的公平性。该研究结合函数δ方法和p-变分范数理论，为生存分析领域提供了兼具算法收敛性与普适适应性的新范式。

当传统统计模型遭遇"训练数据与真实世界分布不匹配"的困境时，这项研究如同给生存分析领域装上了自适应导航系统。团队巧妙地将多重校准（multicalibration）这一公平性引擎，装配到处理删失数据（censored data）的预测模型上——通过伪观测值（pseudo-observations）技术转化生存数据，就像为不完整的生命体征记录安装了数据补偿器。

其核心算法如同精密的分子调控网络：基于函数δ方法（functional delta method）构建理论框架，用p-变分范数（p-variational norm）作为衡量工具，确保模型在跨域预测时保持"代谢稳态"。特别值得注意的是，这个后处理提升（post-processing boosting）算法不需要触碰原始模型的"黑箱"结构，却能像蛋白质翻译后修饰般显著优化预测性能。

在心血管疾病风险预测的实战演练中，该模型展现出令人惊艳的"靶向性"优势：不仅整体预测精度与逆倾向得分加权（IPSW）这一"金标准"比肩，更能像精准医疗般照顾到不同亚群的特殊需求。这为处理电子健康记录（EHR）等存在显著选择偏倚的数据，提供了兼具数学严谨性和临床实用性的新工具。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号