结构增强多模态药物重定位预测模型SMPR:解决冷启动难题与提升药物-疾病关联预测精度
【字体:
大
中
小
】
时间:2025年10月15日
来源:Journal of Cheminformatics 5.7
编辑推荐:
本研究针对药物重定位中结构信息利用不足和冷启动难题,开发了结构增强多模态关系预测模型SMPR。该模型整合药物SMILE结构(通过MOL2VEC嵌入)和疾病异质网络表征,实现了99%的AUC和61%的AUPR预测性能,同时提供冷启动接口(AUC达80%),为临床药物再利用提供了高效计算工具。
在药物研发领域,开发新药不仅耗时漫长,成本也极其高昂。据统计,一种新药从实验室研究到最终上市平均需要10-15年时间,耗资可达数十亿美元。面对这一挑战,药物重定位(drug repositioning)——即发现已批准药物新的治疗适应症——成为加速药物研发进程的重要策略。尤其在全球经历COVID-19大流行后,通过计算方法快速筛选现有药物用于新疾病治疗的需求变得尤为迫切。
尽管计算方法在预测药物-疾病关系方面取得了显著进展,但现有模型仍存在两个关键局限性:一是未能充分利用药物的结构信息,而结构相似性往往决定了药物能否结合相同靶点;二是大多数模型仅限于完成已知关系矩阵,面对训练数据中未包含的新药物(冷启动问题)时预测能力严重受限。这些问题导致计算预测结果与实际生物学验证之间仍存在巨大差距。
为了突破这些限制,澳门科技大学、郑州大学和遵义医科大学珠海校区的研究团队在《Journal of Cheminformatics》上发表了题为“SMPR: a structure-enhanced multimodal drug-disease prediction model for drug repositioning and cold start”的研究论文,提出了一种结构增强的多模态关系预测模型SMPR。该模型不仅显著提高了药物-疾病关联预测的准确性,还创新性地提供了针对新药的冷启动预测接口,极大增强了模型的实用价值。
研究人员采用了几项关键技术方法:从Fdataset、Cdataset和KEGG等数据库整合了894种药物、454种疾病和2704个已验证关联的多模态数据集;利用异质网络图神经网络学习疾病嵌入表征;基于药物SMILE结构,采用MOL2VEC方法生成药物嵌入式表示;使用十折交叉验证和加权BCEWithLogitsLoss函数解决样本不平衡问题;为验证冷启动能力,将数据集按9:1比例划分为训练集和测试集。
SMPR模型包含两个核心模块:疾病嵌入模块和药物嵌入模块。疾病嵌入模块基于REDDA模型构建,通过异质网络整合药物、蛋白质、基因、通路和疾病等多实体信息,使用带有注意力机制的复杂图神经网络学习64维疾病嵌入表示(ED)。药物嵌入模块则创新性地将自然语言处理技术应用于药物结构分析,将SMILE结构视为“句子”,采用MOL2VEC模型将扩展连通性指纹(ECFP)转换为子结构向量,通过无偏求和得到分子表示VR,最终编码为64维药物嵌入表示(ER)。
两个模块的输出通过矩阵乘积构建药物-疾病关联矩阵?R-D,并使用sigmoid函数归一化为关联分数。对于冷启动问题,模型通过计算新药与已知药物嵌入表示的欧几里得距离倒数获得相关性ρα,基于结构相似性加权和先验知识预测新药与疾病的关联。
比较实验显示,SMPR在主要评估指标上表现优异。在数据集DA上,模型AUC达到98.7%,AUPR为61.06%,召回率高达69%,表明对正样本的识别能力特别突出。与REDDA、DRWBNCF和DRAGNN等现有模型相比,SMPR在AUC和AUPR指标上均保持领先。
敏感性测试表明,模型在隐藏特征维度为64、学习率为0.005、耐心值为100时达到最佳性能。稀疏矩阵测试进一步证明了模型的鲁棒性——即使删除60%的药物-疾病关联边,模型仍能保持稳定的预测性能,仅当删除所有关联时性能才显著下降。
通过t-SNE降维和K-Means聚类,研究人员发现基于结构特征的药物嵌入表示能清晰地将药物分为6个类别。令人兴奋的是,每个类别中的药物在治疗疾病类型上表现出明显的相似性:类型1药物主要治疗免疫系统异常反应;类型2针对恶性肿瘤;类型4涉及神经递质系统失衡;类型5与代谢和内分泌异常相关;类型6则聚焦于血管或内皮细胞损伤相关疾病。
这一发现强有力地证明了“结构相似药物具有相似作用机制”的假设,为模型增强结构关注度的设计提供了生物学依据。
针对药物冷启动问题,SMPR提供了简洁实用的解决方案。用户只需输入新药的SMILE结构,模型即可基于结构相似性加权和先验知识,快速预测其可能治疗的疾病。测试结果显示,冷启动模型的AUC达到80%,召回率超过70%,表明对正样本具有高度敏感性。
可视化分析进一步证实,基于结构信息的新药能够被正确分类到相应类别中,且结构相似度越高,疾病关联的相关性越明显。这一功能极大扩展了模型的应用范围,使其能够应对日益增长的AI辅助药物设计产生的新药预测需求。
研究人员随机选择了两款药物进行案例研究。巴氯芬(DB00181)是一种用于缓解脑脊髓疾病引起的严重肌肉痉挛的药物,模型推荐的前10种疾病中大多数已有文献证实其治疗效果,如痉挛和癫痫等。途径分析显示,这些疾病主要通过hsa04921(催产素信号通路)、hsa04723(逆行内源性大麻素信号)等5条通路相互关联。
多西他赛(DB01248)是一种抗癌症药物,模型推荐的10种疾病中有9种与癌症相关,文献证实其单药或联合治疗对这些疾病有效。这些癌症相关通路连接更为复杂,主要包括hsa04144(Ras信号通路)、hsa05218(黑色素瘤)等通路。
为降低使用门槛,研究团队还将SMPR模型封装为本地可执行程序,使不具备编程知识的药理学工作者也能轻松使用。用户只需输入药物的SMILE结构,软件即可快速生成包含该药物与454种疾病关联分数的预测结果文件。
研究结论表明,SMPR模型在药物重定位任务中表现出色,在不同数据集上均能保持稳定的预测性能。模型对结构信息的增强关注显著提高了预测准确性,冷启动模块则为新药预测提供了实用解决方案。尽管模型在负样本区分上仍有改进空间,但其整体框架为多模态药物重定位研究提供了新思路。
随着人工智能技术的快速发展,特别是AlphaFold3在蛋白质结构预测领域的突破,未来研究可进一步整合药物-靶点结合稳定性和毒性等辅助信息,提高药物重定位的实际应用精度。SMPR模型的开源发布和本地化封装将极大促进计算药物重定位方法在临床前研究中的应用,加速药物研发进程。
该研究得到了国家自然科学基金天元基金(12326604)、澳门科技发展基金(0012/2021/AMJ,003/2022/ALC等)、深港澳科技基金(SGDX20220530111203020)等多个项目的资助。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号