多模态数据增强的Pisces模型:药物组合协同效应预测新范式

【字体: 时间:2025年06月04日 来源:Cell Genomics 11.1

编辑推荐:

  本文推荐Hanwen Xu等开发的Pisces模型,通过整合8种药物模态(SMILES、分子图、3D结构等)实现64倍数据增强,在细胞系(cell-line)和异种移植(xenograft)模型中显著提升药物协同(synergy)预测性能(AUROC 0.8525)。该模型突破传统单模态限制,首次实现三药组合预测,并通过遗传互作网络鉴定出乳腺癌(BRCA)敏感通路(PI3K/EGFR家族),为精准医疗提供新工具。

  

多模态数据增强的革命性突破

在癌症治疗领域,药物组合疗法通过协同效应(synergy)显著提高疗效并减少耐药性。传统机器学习方法面临数据稀疏和模态缺失的双重挑战。Pisces模型的诞生,标志着药物协同预测进入多模态融合的新时代。

核心技术架构解析

Pisces模型包含三大创新模块:

  1. 投影器(projector)整合8种药物模态:包括化学结构(SMILES)、分子图(2D/3D)、靶点信息、文本描述、副作用特征等,通过Transformer、图卷积等神经网络转化为统一嵌入空间
  2. 增强器(augmentor)创造64种视图组合,将原始数据量提升64倍
  3. 聚合器(aggregator)采用类ResNet结构,筛选前k个最优预测进行集成

这种架构巧妙解决了模态缺失问题——即使某些药物缺少部分数据模态,系统仍能通过可用模态组合进行有效预测。

细胞系预测的卓越表现

在GDSC-combo数据集上的三组实验验证了模型优势:
• 常规交叉验证:F1分数超越次优模型21.4%
• 新药组合预测:面对未见过药物组合仍保持23.8%的优势
• 新细胞系预测:在最具挑战性的场景下保持10%领先

特别值得注意的是,模型仅用两药数据训练就能预测三药组合,对"阿法替尼+曲美替尼+林西替尼"组合的预测(协同概率19.2%)与已知耐药机制高度吻合。

乳腺癌通路的重要发现

通过整合预测结果与遗传互作网络,研究者发现包含19个基因的乳腺癌敏感通路,其中8个是已知药物靶点(如PI3K、EGFR家族)。TCGA数据分析显示:
• ER+且通路激活患者生存期显著延长(log rank p<0.011)
• 独立验证显示该通路预测价值不受训练数据影响

这一发现为乳腺癌精准分型提供了新标志物。

异种移植模型的时空预测

在1,238个药物组合的异种移植数据中,Pisces展现出独特优势:
• 最佳响应预测:Spearman相关系数0.47,优于所有对比模型
• 时间序列预测:成功预测未观测时间点的肿瘤体积变化(r=0.47)
• 动态可视化:UMAP降维显示药物组合随时间演变的轨迹,可直观识别耐药现象

药物相互作用预测新高度

在DrugBank和TwoSIDES数据集上,Pisces在三种场景表现突出:

  1. 常规测试:准确率提升显著
  2. 单新药测试:面对含新药的组合保持稳健
  3. 双新药测试:在最具挑战性场景下优势最大

模型预测的"纳布美通+水杨醛"心血管风险增加等相互作用,与已有药理研究相互印证。

临床转化的广阔前景

研究者构建的全球药物相互作用网络,包含86种相互作用类型,可按药物类别(ontology)预测新药潜在相互作用。这项技术有望:
• 加速联合疗法开发
• 优化临床试验设计
• 指导个性化用药方案

局限性与未来方向

当前模型存在三方面改进空间:

  1. 模态重要性解释:需开发SHAP等可解释性工具
  2. 多任务学习:可整合协同预测与副作用预测
  3. 三药数据扩展:需更多临床前验证

随着多模态学习在生物医学领域的深入应用,Pisces为代表的新一代算法正在改写药物研发的范式,为攻克癌症等复杂疾病提供强有力的计算工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号