
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:AI驱动的分子生成与生物活性预测:结合VAE、图神经网络和语言模型的多模型方法
【字体: 大 中 小 】 时间:2025年06月21日 来源:Computational Biology and Chemistry 2.6
编辑推荐:
这篇综述创新性地整合了变分自编码器(VAE)、图神经网络(GNNs)和预训练语言模型(ChemBERTa),构建多模型框架用于抗癌小分子生成与生物活性(GI50%)预测。通过堆叠(stacking)集成策略,模型在乳腺癌细胞系数据集上实现皮尔逊相关系数达83%,显著加速药物发现流程并降低研发成本。
癌症作为全球主要死因之一,传统药物研发需耗时10-15年且成本超26亿美元。本研究提出融合深度学习(DL)的多模型框架:首先通过变分自编码器(VAE)生成类药分子,继而采用图注意力网络(GAT)、图卷积网络(GCN)、消息传递神经网络(MPNN)和ChemBERTa构建元模型,预测分子对6种乳腺癌细胞系的生长抑制率(GI50%)。实验显示堆叠集成法使皮尔逊相关系数提升至83%,显著优于现有方法。
药物设计面临结构多样性不足与生物互作复杂性双重挑战。本研究突破性地将VAE与GNN架构(GCN/MPNN)结合,利用ChemBERTa的注意力机制解析分子语义特征。GI50作为关键指标,量化化合物抑制癌细胞增殖效能,为模型优化提供明确方向。
传统高通量筛选存在耗时长、毒性检出率低等缺陷。本研究通过VAE探索化学空间生成新颖结构,同时采用GAT捕捉分子图数据中的拓扑关系,弥补了波兰丘克(Polishchuk)等人提出的骨架局限性问题。
基于Al-Jarf等发布的18,369个化合物数据集(含8,565活性分子),模型聚焦乳腺癌细胞系,通过SMILES编码与图结构表征实现多模态输入。数据清洗保留关键分子描述符如logP和氢键供体数。
该框架证实多模型协同可提升生物活性预测精度,尤其GNN对分子键长(±0.1?)和官能团空间分布的建模能力突出。未来方向包括扩展至PD-1/PD-L1等免疫检查点靶点研究。
Latefa Oulladji主导了模型构建与验证工作,采用PyTorch Geometric实现GNN模块,RDKit完成分子标准化。
作者声明无利益冲突,研究未接受商业机构资助。
生物通微信公众号
知名企业招聘