
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多视角对比学习的药物-靶标相互作用预测模型ContraDTI研究
【字体: 大 中 小 】 时间:2025年06月26日 来源:Artificial Intelligence in Medicine 6.1
编辑推荐:
针对药物-靶标相互作用(DTI)预测中标记数据稀缺的难题,研究人员提出ContraDTI框架,通过分子图谱(主视图)与SMILES字符串(侧视图)的多视角对比学习,显著提升数据受限场景下的预测性能。实验表明,该模型在单靶标(CYP450)和多靶标(KIBA)数据集上均优于基线模型(如MolCLR),为药物发现提供高效工具。
药物研发过程中,准确识别药物与靶标蛋白的相互作用(Drug-Target Interaction, DTI)是筛选候选药物的关键环节。传统依赖湿实验室生化实验的方法成本高昂且耗时,而机器学习虽能加速这一过程,却受限于标记数据的稀缺性——例如KIBA数据库中仅25%的药物-靶标对具有活性标签。更棘手的是,现有解决方案如随机采样负样本或相似性搜索生成伪标签,可能引入噪声和偏差。如何在不依赖大量标记数据的前提下提升DTI预测精度,成为亟待突破的瓶颈。
针对这一挑战,来自广西民族大学和复旦大学的研究团队在《Artificial Intelligence in Medicine》发表论文,提出ContraDTI模型。该框架创新性地融合分子图谱(主视图)与SMILES字符串(侧视图)的双视角表征,通过自监督对比学习挖掘未标记数据的潜在特征,仅需少量标记数据即可训练高性能分类器。实验证明,在CYP450单靶标和KIBA多靶标预测任务中,ContraDTI的AUROC和AUPR指标显著优于MolCLR等基线模型,尤其在标记数据不足10%时优势更为突出。
关键技术方法
研究采用多视角对比学习框架:1)以分子图谱(描述原子连接性)为主视图,SMILES字符串(化学键遍历序列)为侧视图;2)设计主视图内对比损失函数(Contrastive Loss)和跨视图对齐损失函数(Alignment Loss);3)使用KIBA(含2068药物/229靶标)和CYP450(5种亚型)数据集,通过10折交叉验证评估性能;4)对比基线包括TripletMultiDTI、CCL-DTI等模型。
研究结果
1. 单靶标预测性能
在CYP450亚型数据集上,ContraDTI的AUROC平均值达0.912,较MolCLR提升4.3%。当仅使用5%标记数据时,其AUPR仍保持0.851,验证了模型在极端数据稀缺场景下的鲁棒性。
2. 多靶标预测优势
针对KIBA数据集,模型通过跨视图对齐学习捕获药物分子拓扑结构与序列特征的互补信息,AUROC(0.887)和AUPR(0.802)均超越传统监督模型。消融实验显示,移除侧视图会使性能下降12.6%,证实SMILES字符串的贡献。
3. 标记数据敏感性分析
逐步减少标记数据比例(100%→1%)时,ContraDTI性能衰减幅度显著小于基线模型。在1%标记数据下,其预测精度仍达全量数据的78%,而传统监督模型仅为43%。
结论与意义
该研究首次将多视角对比学习引入DTI预测领域,通过分子图谱与SMILES字符串的协同表征,突破标记数据稀缺的瓶颈。ContraDTI的创新性体现在:1)利用未标记数据预训练编码器,降低对标记样本的依赖;2)跨视图对齐机制增强特征泛化能力;3)在CYP450和KIBA等典型场景中验证普适性。这一成果为小分子药物(Small-molecule drugs)的高通量筛选提供新范式,尤其适用于罕见靶标或新兴病原体的快速药物开发。未来研究可拓展至蛋白质三维结构等附加视图,进一步丰富多模态学习框架。
生物通微信公众号
知名企业招聘