基于大语言模型的药物协同效应统一分析模型BAITSAO的构建与应用

【字体: 时间:2025年05月16日 来源:Nature Communications 14.7

编辑推荐:

  本研究针对复杂疾病治疗中药物协同效应预测的挑战,开发了基于大语言模型(LLM)的统一框架BAITSAO。通过整合GPT-3.5生成的药物和细胞系嵌入特征,采用多任务学习(MTL)预训练策略,在回归和分类任务中显著优于现有方法(如DeepSynergy、MARSY)。该模型支持零样本推理和三药组合预测,揭示了VIM、BMP4等关键基因与药物协同的关联,为癌症等疾病的联合用药设计提供了新工具。

  

在癌症和HIV等复杂疾病治疗中,联合用药已成为重要策略。药物协同效应(指联合用药效果超过单药效果之和)能降低耐药性并减少剂量,但传统高通量筛选方法耗时费力,尤其对三药及以上组合更是如此。现有计算方法如DeepSynergy依赖化学结构和基因表达特征,存在数据异质性和泛化性不足的问题。更关键的是,不同研究使用的数据集和评估标准不统一,导致结果难以比较。

耶鲁大学和加州大学洛杉矶分校的研究团队在《Nature Communications》发表研究,开发了基于大语言模型(LLM)的统一框架BAITSAO。该模型通过GPT-3.5生成的药物和细胞系文本描述嵌入特征,构建标准化输入管道,采用多任务学习预训练策略,在7个基准测试中3项指标领先。研究发现LLM嵌入能准确反映药物功能相似性(与DrugBank描述余弦相似度达0.87-0.90),并首次实现三药组合协同预测,为药物发现和临床转化提供了新工具。

关键技术包括:1) 利用GPT-3.5生成药物/细胞系描述并提取嵌入特征;2) 基于DrugComb数据库739,652组药物-细胞系组合进行预训练;3) 采用改进的不确定性加权(Uncertainty Weighting)多任务学习框架,同步预测Loewe协同评分、单药抑制率和二分类协同标签;4) 通过SHAP分析识别VIM、BMP4等关键基因的调控作用;5) 结合蒙特卡洛Dropout(MC Dropout)进行不确定性估计。

药物嵌入反映功能相似性和细胞水平响应
通过UMAP可视化发现,LLM生成的药物嵌入能聚类MK-2206、MK-4827等机制相似的药物。与DrugBank数据库对比显示,嵌入特征保留药物功能信息(Pearson相关系数PCC≥0.76)。在单细胞扰动实验中,LLM嵌入与SMILES化学特征结合使基因表达预测R2提升显著(Openproblems数据集p<0.05)。

模型架构与预训练策略的优势验证
在DeepSynergy等5个数据集上,BAITSAO的Pearson相关系数(PCC)达0.76,显著优于传统方法(如SVM的0.68)。多任务学习使分类任务AUC提升9.57%,且收敛速度比单任务快30%。零样本预测准确率(ACC)达0.7,证明其强大的迁移能力。

药物-基因互作的可解释性分析
SHAP分析发现,地塞米松+Dinaciclib组合中,VIM基因的重要性排名第一,其表达水平与协同效应负相关(调整p=0.962)。差异表达基因(DEG)分析证实SPON2、BMP4等基因在协同组显著下调(Fisher检验p=0.0062),与BMP4已知的癌症调控作用一致。

三药组合协同预测的临床应用
预测显示Vemurafenib+Trametinib+I-BET151组合在WM-115细胞系中协同评分为17.95,而替换I-BET后评分降为-7.76,与BET抑制剂优化版本的效果差异相符。另一组含PF562271的三药组合预测评分3.56,实验证实其生长抑制效果优于替代方案。

该研究建立了首个基于LLM的药物协同预测统一框架,解决了数据异质性和多药组合预测的难题。通过嵌入特征标准化和MTL策略,BAITSAO在保持高效计算(单GPU可运行)的同时,实现了从二元组合到多元组合的拓展预测。发现的VIM-BMP4调控轴为理解协同机制提供了新视角,而开源模型(MIT许可证)将促进个性化医疗发展。未来整合单细胞和GWAS数据有望进一步提升对早期研发药物的预测能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号