
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多视角特征编码框架MFE-DDI:融合SMILES序列、分子图与原子空间语义信息提升药物相互作用预测精度
【字体: 大 中 小 】 时间:2025年05月27日 来源:Computational and Structural Biotechnology Journal 4.5
编辑推荐:
为解决药物组合治疗中药物-药物相互作用(DDI)预测的单一视角局限性问题,研究人员开发了多视角特征编码框架MFE-DDI,整合SMILES序列、分子图结构和原子空间语义信息,通过注意力机制融合多维特征。实验表明,该方法在三个数据集上超越基线模型,AUROC最高达99.22%,为临床安全用药提供了更精准的计算工具。
在治疗复杂疾病时,多药联用方案能发挥协同效应,但药物-药物相互作用(DDI)可能导致严重不良反应。传统DDI预测方法依赖单一数据视角——或基于SMILES序列的化学指纹,或依赖分子图结构,难以全面捕捉药物分子的复杂特性。现有方法如DeepDDI仅利用序列相似性,GAT等图模型则忽略空间构象信息,而知识图谱方法过度依赖外部生物实体数据。这些局限性使得现有模型的预测准确性和鲁棒性面临挑战。
为突破这一瓶颈,中国的研究团队在《Computational and Structural Biotechnology Journal》发表研究,提出多视角特征编码框架MFE-DDI。该工作首次整合SMILES序列的1D特征(通过FCS算法和Transformer编码)、分子图的2D结构特征(采用MPAN网络)以及原子空间语义信息(包含中心性编码和空间编码),通过注意力机制动态融合多维特征,最终在三个标准数据集上实现AUROC 95.62%-99.22%的突破性性能。
关键技术包括:1) 使用FCS算法将SMILES分解为化学子结构,通过8头Transformer提取序列特征;2) 基于消息传递注意力网络(MPAN)的图编码器,进行2层图特征传播;3) 原子语义编码器整合原子特性、中心性和空间位置信息;4) 基于ProbSparse自注意力的特征融合模块。实验数据来自Drugbank衍生的Pang数据集(1,548药物)、BioSNAP(1,306药物)和AdverseDDI(388药物)。
SMILES序列特征编码模块
通过FCS算法将SMILES序列分解为具有生化语义的子结构,利用Transformer捕捉上下文关系。相比传统字符级编码,该方法能更好表征功能基团作用,在Pang数据集上使序列特征F1-score提升至97.91%。
2D图特征编码模块
采用消息传递注意力网络(MPAN)分两阶段处理分子图:消息传递阶段通过GRU单元更新原子特征,读图阶段通过自注意力池化聚合全局信息。该模块在BioSNAP数据集上取得98.23%准确率,证明其对分子拓扑结构的强大表征能力。
原子语义特征编码模块
创新性地引入原子中心性编码(度中心性)和空间编码(最短路径距离),结合RDKit提取的9维原子特性,通过ProbSparse注意力建模原子间空间关系。实验显示该模块使AdverseDDI数据集AUROC提升2.48%,显著优于仅使用分子图的GAT模型。
多维特征解码与预测
注意力机制为序列(seq)、图(graph)和语义(semantic)特征分配动态权重(计算公式:αg=softmax(W2⊙tanh(W1⊙g+b))),最终融合向量经三层全连接网络输出预测概率。消融实验证实三通道缺一不可,移除任一特征会使AUROC下降3.5%-6.2%。
这项研究的核心突破在于首次实现了药物分子1D序列、2D结构和3D空间语义的协同编码。相比传统方法,MFE-DDI在数据量减少75%时性能波动不足2%,展现出极强的鲁棒性。案例研究证实其对2021年新批准药物(如新冠治疗药物)的DDI预测准确率达89.7%,为临床前药物安全性评估提供了可靠工具。研究者开源了代码和数据,这将推动计算药学领域向多模态特征融合方向发展,并为AI驱动的精准用药奠定方法论基础。
生物通微信公众号
知名企业招聘