
-
生物通官微
陪你抓住生命科技
跳动的脉搏
IC2Bert:基于掩码基因表达预训练与监督微调的免疫检查点阻断治疗响应预测新方法
【字体: 大 中 小 】 时间:2025年08月02日 来源:Scientific Reports 3.9
编辑推荐:
本研究针对免疫检查点阻断(ICB)治疗响应预测中存在的队列异质性挑战,开发了IC2Bert模型。研究人员通过掩码基因表达预训练结合领域特异性监督微调,采用Leave-One-Dataset-Out Cross-Validation(LODOCV)验证策略,在13个ICB队列(1,214例患者)中实现了0.781的平均AUROC,显著优于传统基因集预测方法(~0.64)和深度神经网络基线(~0.62)。该研究为克服肿瘤免疫治疗预测模型的泛化性难题提供了创新解决方案。
免疫检查点阻断(ICB)疗法彻底改变了癌症治疗格局,通过解除T细胞的免疫抑制,在黑色素瘤、非小细胞肺癌等恶性肿瘤中取得了显著疗效。然而临床实践中,仅有约30%的患者能从ICB治疗中获益,这使得精准预测治疗响应成为肿瘤免疫学领域的核心挑战。尽管基于RNA测序(RNA-seq)的生物标志物如肿瘤炎症特征(TIS)和细胞溶解活性评分(CYT)展现出预测潜力,但不同研究队列在人群特征、测序平台和数据处理方法上的异质性,导致现有预测模型的跨数据集性能普遍不佳。以PD-L1表达为例,其预测准确率在不同肿瘤类型中波动于28.9%左右,凸显了开发稳健预测工具的紧迫性。
美国国立卫生研究院国家癌症研究所(National Cancer Institute, NIH)的Seongyong Park团队开发了IC2Bert这一创新预测框架。该模型借鉴自然语言处理中的BERT架构,通过掩码语言建模(MLM)策略预训练基因表达数据,使模型能够从13个ICB治疗队列(共1,214例患者)的RNA-seq数据中学习基因间的复杂关联模式。研究采用严格的Leave-One-Dataset-Out Cross-Validation(LODOCV)验证方案,每次迭代将1个数据集作为独立测试集,其余12个用于预训练,最终在《Scientific Reports》发表的研究显示,IC2Bert的平均AUROC达到0.781±0.135,较传统方法提升约28%。
关键技术方法包括:1)从34个已发表基因集中筛选983个ICB相关基因作为特征;2)采用分位数离散化将连续表达值转换为Nbins个区间(4-128);3)四层Transformer架构结合基因特异性嵌入;4)两阶段训练策略(无监督MLM预训练+监督微调);5)基于注意力机制和排列重要性的特征分析。样本来源于GEO、dbGaP等公共数据库的13个ICB治疗队列。
【整体训练与评估策略】
研究采用迭代LODOCV框架,每次保留一个数据集作为独立测试集,其余12个用于预训练。测试集进一步分为训练子集(80%)和测试子集(20%),前者用于微调,后者严格保留用于最终评估。结果显示,与零样本预测(平均AUROC 0.518)相比,微调使性能提升51%(ΔAUROC +0.263),证明领域适应的重要性。
【Nbins参数消融研究】
比较4-128个表达区间的离散化效果发现,4-bin方案在掩码标记重建准确率(95%)和下游预测性能(平均AUROC 0.781)上均最优。更多区间(如128-bin)虽增加表达分辨率,但重建准确率骤降至20%,且不利于知识迁移。
【性能比较】
与34个已发表基因集预测因子相比,IC2Bert在12/13数据集中表现更优,如在Miao2018队列达到0.943±0.100 AUROC,而最佳基因集组合仅0.450±0.191。相较于深度神经网络(DNN)、卷积神经网络(CNN)等基线模型,IC2Bert平均AUROC提升24.6%。六种先进领域泛化方法(DANN、IRM等)也未能超越IC2Bert的跨数据集稳定性。
【训练样本量影响】
在Miao2018等队列中,仅需2个平衡训练样本即可使AUROC超过0.7,20个样本时性能趋于稳定,证明预训练表征具有强泛化能力。这种"小样本适应"特性对临床场景尤为重要。
【特征重要性分析】
整合注意力权重和排列重要性发现,B细胞相关基因(FCRL5、CD79A)、增殖标志物(MKI67、TOP2A)和上皮标志物(CDH1)最具预测价值。其中PRC1基因在10个数据集中进入Top10重要特征,其标准化重要性得分达0.123±0.097。
该研究通过创新的"预训练-微调"范式,解决了ICB响应预测中的关键瓶颈。生物学层面,模型揭示的B细胞特征与增殖信号通路,为理解免疫治疗响应机制提供了新视角。临床转化方面,仅需少量目标领域样本即可实现高性能预测的特性,使IC2Bert特别适合现实医疗场景。研究者已公开模型代码(GitHub),为后续多组学整合奠定了基础。未来通过纳入更多癌种和单细胞测序数据,有望进一步突破肿瘤免疫治疗的精准预测边界。
生物通微信公众号
知名企业招聘