
-
生物通官微
陪你抓住生命科技
跳动的脉搏
可解释性生存分析新突破:CoxKAN模型实现高精度与透明决策的完美平衡
【字体: 大 中 小 】 时间:2025年07月22日 来源:Bioinformatics 4.4
编辑推荐:
剑桥大学团队开发CoxKAN模型,通过Kolmogorov-Arnold Networks(KANs)解决传统CoxPH模型线性假设偏差与深度学习模型"黑箱"难题。该模型在9个真实数据集上C-index提升达4%,能自动解析危险函数符号公式,揭示生物标志物复杂相互作用,为临床决策提供可解释的高性能生存分析工具。
在医学研究和临床实践中,预测患者死亡或疾病复发等关键事件的时间至关重要。传统生存分析方法如Cox比例风险模型(CoxPH)虽然解释性强,但其线性假设难以捕捉复杂的生物医学关系;而深度学习模型如DeepSurv虽能提高预测精度,却因"黑箱"特性让临床医生望而却步。这种性能与可解释性之间的尖锐矛盾,严重制约了精准医疗的发展。
剑桥大学肿瘤学系(Department of Oncology, University of Cambridge)联合CRUK剑桥中心的研究团队创新性地将最新提出的Kolmogorov-Arnold网络(KANs)引入生存分析领域,开发出CoxKAN模型。该研究通过四组合成数据和九组真实临床/基因组数据集验证,证明其不仅能匹配深度学习模型的预测性能(C-index最高提升4%),更能自动推导出可解释的危险函数数学表达式,相关成果发表在生物信息学顶级期刊《Bioinformatics》上。
研究采用三大关键技术:1)基于B样条的KAN架构实现任意单变量函数逼近;2)渐进式符号回归(Progressive symbolic fitting)结合PySR算法转化激活函数为数学表达式;3)针对高维基因组数据设计自动特征选择策略。临床数据来自SUPPORT、GBSG等5个队列,基因组数据涵盖TCGA中BRCA、GBM/LGG等5种癌症的CNV(拷贝数变异)、RNA表达和突变特征。
合成数据验证
在包含高斯函数、欧氏距离等复杂关系的合成数据集中,CoxKAN准确恢复了75%的真实危险函数公式。如图2a所示,模型能自动剔除噪声特征,其预测曲面与真实分布高度吻合。特别是对包含对数、绝对值等非线性项的"复杂"数据集,虽未完全复现原始公式,但通过PySR拟合的替代表达式达到了等效预测精度(C-index 0.690 vs 真实值0.691)。
临床数据集表现
如表2所示,在5个临床队列中,CoxKAN符号化版本在SUPPORT、GBSG和METABRIC数据集上显著优于CoxPH和DeepSurv。最具说服力的是SUPPORT队列分析:模型揭示癌症转移状态与年龄存在显著交互作用——转移患者风险在60岁前随年龄递减而后上升,非转移患者则呈单调上升趋势。这种通过?1,1,2激活函数捕获的复杂模式(图2d),为个体化风险评估提供了全新视角。
基因组数据分析
面对TCGA的高维基因组数据,CoxKAN在GBM/LGG和BRCA数据集表现突出。研究不仅确认了1p/19q共缺失、IDH1突变等已知预后因素,还发现CARD11拷贝数增加与胶质瘤不良预后相关(图4),这为后续机制研究指明方向。在BRCA中,模型首次报道RYR2突变与生存改善的线性关联(β=-0.21),同时揭示HSPA8基因表达存在"双相效应"——适度表达时风险最低,过高或过低均增加风险。
该研究的突破性在于:首次实现生存分析中预测精度与模型透明度的统一。通过KAN特有的网络结构可视化(图1)和符号公式输出,临床医生既能获得深度学习级的预测性能,又能直接查阅影响决策的关键特征及其数学关系。如在NWTCO儿童肾母细胞瘤数据中,模型明确量化了组织学分级与年龄的交互效应:低级别肿瘤患儿随年龄增长预后改善,而高级别肿瘤幼儿风险急剧升高。这种精确的定量关系,为制定年龄分层治疗方案提供了可靠依据。
值得注意的是,当前模型仍受限于比例风险假设,且在高维数据中倾向于选择简单结构。作者建议未来研究可探索非比例风险的KAN扩展,并开发更鲁棒的训练策略以捕捉基因组特征间的相互作用。尽管如此,CoxKAN已为可解释生存分析树立新标杆,其开源实现将加速精准医疗从实验室到临床的转化。
生物通微信公众号
知名企业招聘