
-
生物通官微
陪你抓住生命科技
跳动的脉搏
双模态特征融合的双边注意力网络DFT_ANPD:基于深度学习的抗癌天然产物智能检测新范式
【字体: 大 中 小 】 时间:2025年06月04日 来源:Computers in Biology and Medicine 7.0
编辑推荐:
本研究针对抗癌药物研发中天然产物筛选的精准性问题,提出DFT_ANPD深度学习框架。通过整合1D-CNN提取的分子结构特征与SMILES-BERT生成的语义嵌入,创新性采用双边注意力机制实现多模态特征融合,显著提升预测性能。在NPACT和CancerHSP数据集上AUC-ROC达0.923,成功鉴定出FDA已批准的放线菌素D等候选分子,为加速抗癌药物发现提供智能化解决方案。
癌症作为全球第二大死因,每年导致近千万人死亡,尽管现有治疗手段不断进步,但化疗药物普遍存在毒性大、耐药性等问题。天然产物因其结构多样性和低毒性特点,已成为抗癌药物研发的重要来源,但传统实验筛选方法耗时耗力,而现有计算模型如iANP-EC存在特征提取不全面、泛化能力有限等缺陷。
针对这一挑战,研究人员开发了DFT_ANPD(Dual-Feature Two-sided Attention Network for Anticancer Natural Products Detection)深度学习框架。该研究创新性地将分子结构信息与大型语言模型(LLM)嵌入相结合,通过1D卷积神经网络(1D-CNN)解析SMILES字符串的化学模式,同时采用微调的SMILES-BERT模型提取语义特征。核心创新点在于设计了两边注意力机制(two-sided attention mechanism),动态加权融合结构特征与语义特征,最终通过sigmoid函数预测抗癌活性。研究使用NPACT和CancerHSP数据集进行训练验证,并采用独立数据集NPASS评估泛化能力。
关键技术包括:1)基于SMILES字符串的1D-CNN特征提取;2)微调SMILES-BERT模型生成分子语义嵌入;3)双边注意力特征融合机制;4)分子对接验证(针对排名第6的化合物NPC479359与CB2受体等5种癌症相关蛋白的结合分析)。
【Method comparison】
与当前最优模型iANP-EC相比,DFT_ANPD在NPACT数据集上AUC-ROC提升7.2%(0.923 vs 0.861),AUC-PR提高19.4%(0.901 vs 0.754)。独立测试集NPASS验证中,模型成功识别出FDA批准的放线菌素D(dactinomycin),其预测评分位列前十。
【Conclusion】
该研究构建的DFT_ANPD框架首次实现LLM嵌入与化学结构特征的深度整合,双边注意力机制有效捕捉分子关键特征。通过对接实验证实,模型预测的第6位化合物NPC479359与DNA裂解酶等靶点具有强结合力(结合能<-9 kcal/mol),验证了预测可靠性。这项发表于《Computers in Biology and Medicine》的工作,为抗癌天然产物筛选提供了准确率达92.3%的智能工具,显著加速了从化合物发现到临床前研究的转化进程。
研究突破体现在三方面:首先,建立首个融合LLM与结构特征的抗癌天然产物预测体系;其次,创新性注意力机制解决了多模态特征权重分配难题;最后,通过独立数据集验证和分子对接实验,形成"计算预测-实验验证"的闭环研究范式。该框架的模块化设计可扩展至其他疾病类型的药物发现,为人工智能驱动的药物研发提供了新思路。
生物通微信公众号
知名企业招聘