
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ProCanFDL:基于联邦深度学习的人类蛋白质组学数据隐私保护框架实现精准癌症分型
【字体: 大 中 小 】 时间:2025年09月18日 来源:Cancer Discovery 33.3
编辑推荐:
本刊推荐:本研究开发了首个应用于人类蛋白质组学数据的联邦深度学习框架ProCanFDL,通过对来自8个国家40个肿瘤队列的7,525例样本进行分布式训练,在保持数据隐私的前提下实现了16种癌症亚型的精准分类(AUROC达0.9992)。该框架成功整合了数据非依赖采集(DIA-MS)和串联质谱标记(TMT)两种蛋白质组技术,性能比局部模型提升43%且与中心化模型相当,为国际多中心研究提供了隐私合规的机器学习解决方案。
实验设计与模型性能
ProCan Compendium包含来自7个国家20个研究团队的7,525例人类生物样本,包括5,982例肿瘤样本和1,512例癌旁正常样本。通过7台质谱仪生成19,930个数据非依赖采集质谱(DIA-MS)运行,共量化9,102种蛋白质。样本涵盖31种组织来源、29种癌症类型和65种以上亚型,样本间中位Pearson相关系数为0.96,仪器间无批次效应。
ProCanFDL框架概述
传统机器学习方法存在局限性:本地学习虽保留数据控制权但泛化能力有限;中心化学习虽提升性能但需共享敏感数据。联邦学习(FL)通过分布式训练框架,仅共享模型参数而非原始数据,在保护数据隐私的同时实现多中心协作。联邦深度学习(FDL)特指在此分布式设置中实施深度学习技术。
ProCanFDL采用四步算法:1)初始化与本地训练:全局模型随机初始化并分发至各站点;2)全局模型聚合:通过联邦平均算法聚合本地参数;3)全局模型更新:将聚合后模型分发至各站点;4)迭代与收敛:重复1-3步直至模型收敛。该框架使各站点在保护数据隐私的前提下贡献知识。
ProCan Compendium的ProCanFDL应用
研究聚焦14种癌症亚型(每种在队列1至少有5个样本,在队列2-30至少有20个样本),最终分析4,558个样本。设置4个本地站点模拟真实FL场景:站点1始终包含队列1数据,站点2-4随机分配其余29个队列,共进行10次实验以确保统计稳健性。
本地学习模型中,站点1的宏观平均AUROC为0.9805,站点2-4分别为0.9502、0.9680和0.9522。中心化模型达到0.9999的AUROC和0.990的准确率,显著优于本地模型但需数据共享。ProCanFDL全局模型实现0.9992的平均AUROC和0.965的准确率,比本地模型提升43%且与中心化模型性能相当。
泛化与整合
为验证模型泛化能力,研究整合了外部数据集:两个DIA-MS队列(n=55)和八个TMT队列(n=832),新增高级别浆液性卵巢癌和透明细胞肾细胞癌两种亚型,使分析亚型增至16种。经z-score标准化后,输入矩阵包含3,837种共同量化的蛋白质。
本地模型中,站点5(DIA-MS)和站点6(TMT)的AUROC分别为0.5162和0.7294,低于站点1-4(0.9133、0.9038、0.8959),因其癌症亚型覆盖有限。中心化模型AUROC达0.9999。ProCanFDL全局模型AUROC为0.9987,灵敏度在9/16亚型中达100%,再次验证其与中心化模型相当的性能和跨平台整合能力。
模型解释
通过SHAP值分析发现:鳞状分化标志物DSG3对皮肤和头颈部鳞癌预测贡献度最高;上皮分化标志物AGR2对乳腺、结直肠和胰腺腺癌呈正向贡献;组织特异性蛋白如KLK3(前列腺特异性抗原)和PCP4对前列腺腺癌有特异性识别作用;结直肠癌中LGALS4、CDH17和KRT20等肠道上皮标志物显著富集。
过度表征分析显示:肺腺癌富集肺泡II型细胞相关蛋白(NAPSA、SFTPB、LPCAT2);鳞癌富集基底细胞蛋白(KRT6A);食管和结直肠腺癌富集肠上皮细胞蛋白(VIL1)和ADC靶点(CEACAM5、CLDN3)。脂肪肉瘤误判为乳腺癌因两者均表达脂肪组织相关蛋白(FABP4、PLIN1、LIPE)。
生物学通路分析显示:胰腺导管腺癌与细胞外基质通路相关;肝细胞癌与组氨酸和胆碱代谢通路相关;全局模型识别出肺腺癌中MET原癌基因和糖鞘脂代谢通路,与肺癌生长进展相关;结直肠癌中甘油三酯代谢和PPAR信号通路被激活。Hallmark基因集分析发现:胰腺肿瘤中胰岛β细胞蛋白(GCG、SST、PKLR)富集;乳腺癌中雌激素反应相关ETS转录因子(ETS1、ELF1)显著表达。
药物靶点分析发现:ERBB2与乳腺癌强相关;TROP2在乳腺、头颈鳞癌、肺鳞癌和前列腺腺癌中高表达;免疫治疗靶点STAT3、ICAM1和CD274(PD-L1)在肺腺癌中显著富集,与免疫检查点抑制剂反应预测相关。
讨论
ProCanFDL首次实现人类蛋白质组学数据的联邦深度学习,突破多平台数据整合和隐私保护的双重障碍。通过模拟真实多中心场景和整合DIA-MS/TMT双平台数据,证明其在癌症分型中的卓越性能(宏观平均AUROC 0.9992)和生物标志物发现潜力。
研究局限性包括:未涉及更复杂多机构设置的数据协调挑战;需开发联邦批量归一化等技术处理跨站点数据标准化;需扩展至预后生物标志物和临床结局预测等应用场景。
该框架为蛋白质组学基础模型开发奠定基础,通过隐私合规方式汇聚大规模多样化数据集,未来可推动癌症生物学理解、治疗靶点发现和多组学数据应用。ProCanFDL平衡模型性能与数据隐私,为国际合作研究提供实用化解决方案。
方法学
生物样本与数据收集:新鲜冷冻(FF)和福尔马林固定石蜡包埋(FFPE)样本来自多个国际生物样本库,经伦理批准使用。队列1包含766例原发肿瘤和494例癌旁正常样本,经病理学家复核确认诊断一致性和肿瘤含量>20%。
样本制备与质谱采集:采用Heat ‘n Beat方法制备样本,SCIEX TripleTOF 6600质谱仪进行技术重复检测。
光谱库生成:19,930个DIA-MS运行经DIA-NN软件处理,参考UniProt人类蛋白质组,包含193,354条肽段和15,306种蛋白质。
数据提取:使用DIA-NN R包进行保留时间依赖归一化,保留Global.Q.Value≤0.01的前体蛋白,采用maxLFQ计算蛋白丰度并进行log2转换。
蛋白质组分析:使用Python pandas包计算Pearson相关系数评估技术重复性;UMAP可视化批次效应和聚类;定义细胞类型富集蛋白(在≤1个亚型中≥50%样本量化且在其它亚型≤35%样本量化)。
预处理与统计:缺失值用零插补,无额外标准化。队列1样本经组织病理学标准过滤。
训练测试集划分:按患者级别90/10划分,确保同患者样本同组。
超参数调优:队列1上进行三折交叉验证,最终架构包含输入层、隐藏层、ReLU激活函数、dropout层(0.2)和输出层。学习率10-4,权重衰减10-4,隐藏层维度256,批量大小100,epoch数200,使用Adam优化器。
评估指标:采用宏观平均AUROC(一对一多分类)和准确率。
模型解释分析:SHAP(v0.45.1)计算特征重要性;WebGestalt进行过度表征分析(Human Cell Landscape、Reactome、KEGG、GO生物过程数据库);GSVA包计算Hallmark基因集标准化富集分数。
外部验证:使用scikit-learn StandardScaler进行z-score标准化,分别处理DIA和TMT数据后合并。
数据可用性:队列1原始数据和光谱库保存于PRIDE(PXD056810);代码见GitHub。
生物通微信公众号
知名企业招聘