编辑推荐:
在药物研发中,细胞色素 P450(CYP)介导的药物相互作用至关重要。为解决 CYP2B6 和 CYP2C8 相关数据少、预测难的问题,研究人员利用深度学习开展研究。结果显示,多任务学习结合数据插补模型效果显著,这为药物安全性评估提供了有力支持。
在药物研发的神秘世界里,细胞色素 P450(CYP)超家族扮演着极为重要的角色。它就像一把神奇的 “钥匙”,能代谢各种各样的化合物,帮助身体处理药物和毒素。然而,这把 “钥匙” 有时也会带来麻烦。当药物诱导 CYP 抑制时,就可能引发不良的药物相互作用(DDI),这不仅会影响药物的治疗效果,还可能对患者的健康造成严重威胁。比如,患者同时服用多种药物时,这些药物在体内可能会 “打架”,导致意想不到的副作用,甚至危及生命。
目前,虽然有关化学 - CYP 相互作用的实验数据在不断增加,但准确预测 CYP450 抑制剂却困难重重。基于结构的技术,如分子对接和药效团映射,由于 CYP450 灵活的构象,难以精准预测。机器学习虽被广泛应用,但对于 CYP2B6 和 CYP2C8 这两种重要的同工型,因其相关实验抑制数据在公共数据库中严重受限,构建预测模型面临巨大挑战。小数据量和数据不平衡容易导致模型过拟合或欠拟合,许多已批准药物对 CYP2B6 和 CYP2C8 的抑制活性也尚不清楚。
为了解开这些难题,来自大阪大学蛋白质研究所计算生物学实验室以及印度尼西亚国家研究和创新署药物成分与传统医学研究中心的研究人员,开展了一项极具意义的研究。他们利用深度学习技术,致力于构建更精准的 CYP 抑制预测模型,相关成果发表在《Journal of Cheminformatics》上。
研究人员采用了多种关键技术方法。首先,从 PubChem、ChEMBL 等多个数据库收集整合数据,经过严格的数据整理,构建了包含 12,369 种化合物的数据集。在模型构建方面,运用图卷积神经网络(GCN),通过单任务、多任务、微调等多种方式构建模型,并对缺失值进行插补处理。同时,利用统一流形近似和投影(UMAP)技术对数据进行可视化分析。
数据集构建
研究人员收集整理后构建了包含 12,369 种化合物的数据集,涵盖 CYP1A2、CYP2B6 等七种 CYP 同工型。除 CYP2B6 和 CYP2C8 外,其他同工型数据集化合物数量较多且分布平衡。CYP2B6 和 CYP2C8 数据集较小,抑制剂比例低,且存在数据不平衡问题,同时合并数据集导致大量缺失标签。
数据集可视化
通过 UMAP 分析发现,多数化合物仅与一种 CYP 同工型相关,多靶点抑制剂结构异质性高。CYP2B6 和 CYP2C8 化学空间较窄,CYP2B6 分布更分散,CYP2C8 有聚类现象。
基线模型构建
基于 GCN 算法为每种 CYP 同工型构建单任务基线模型。结果显示,主要 CYP 同工型模型性能良好,但 CYP2B6 和 CYP2C8 表现不佳,这是由于其数据集小、类别不平衡和结构多样性有限。
多任务、微调及插补模型构建
为改善 CYP2B6 和 CYP2C8 模型性能,研究人员尝试多任务学习和微调方法。多任务和微调模型虽有一定改进,但未达显著水平。进一步分析发现,缺失数据和共享化合物影响模型性能,于是采用预测标签对缺失值进行插补。结果表明,多任务插补模型(如 MIPM、MIPS)显著提升了 CYP2B6 和 CYP2C8 抑制剂预测性能。
已批准药物对 CYP2B6 和 CYP2C8 的抑制潜力预测
利用插补数据的模型预测已批准药物对 CYP2B6 和 CYP2C8 的抑制活性。构建包含 1,808 种已批准药物的数据集,以已知抑制剂为外部测试集评估模型可靠性。MIPS 对 CYP2B6、MIPM 对 CYP2C8 的召回率较高。最终预测出 161 种 CYP2B6 潜在抑制剂和 154 种 CYP2C8 潜在抑制剂,并确定了综合评分最高的前 10 种潜在抑制剂。
研究表明,多任务深度学习,尤其是结合图卷积网络和数据插补的模型,能有效克服小数据集的限制,显著提高 CYP 抑制预测的准确性。该研究不仅成功预测了 1,808 种已批准药物的 CYP 抑制活性,还确定了潜在抑制剂,为后续实验验证提供了重要参考,对确保药物上市后的安全性意义重大。同时,为多抑制剂药物的间接发现奠定了基础,推动了药物研发和精准医疗领域的发展。