基于蛋白质序列-结构相似性网络(PS3N)的新药相互作用预测模型:从分子机制到临床应用
《Scientific Reports》:PS3N: leveraging protein sequence-structure similarity for novel drug-drug interaction discovery
【字体:
大
中
小
】
时间:2025年10月25日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对药物相互作用(DDI)预测中蛋白质序列和结构信息利用不足的问题,开发了蛋白质序列-结构相似性网络(PS3N)模型。研究团队整合DrugBank和PDB数据库中的蛋白质序列和结构数据,采用相似性网络融合(SNF)技术和深度神经网络,实现了对潜在DDI的高精度预测。结果表明,PS3N模型在多个数据集上表现优异(精确度91%-98%,召回率90%-96%,F1分数86%-95%,AUC 88%-99%),成功识别了297个新型DDI,为药物安全性评价提供了新视角。
在当今医疗实践中,多种药物联合使用已成为常态,特别是老年患者和慢性病患者往往需要同时服用多种药物。这种多药治疗(polypharmacy)模式虽然能更好地控制疾病,但也带来了严峻的挑战——药物相互作用(Drug-Drug Interaction, DDI)可能导致严重的药物不良反应(Adverse Drug Events, ADEs)。据统计,仅在美国,每年向FDA报告的严重不良反应事件就超过50万例,其中药物相互作用是主要原因之一。
传统药物相互作用识别方法主要依赖临床试验,但由于试验样本量有限、持续时间较短,很难发现所有潜在的相互作用,特别是罕见或长期用药后才出现的相互作用。这使得许多潜在的危险组合在药物上市后才逐渐被发现,对患者安全构成严重威胁。
面对这一挑战,计算预测方法应运而生。近年来,研究人员开发了多种基于机器学习的方法来预测药物相互作用,包括基于相似性的方法、基于网络的方法、矩阵分解方法和集成学习方法。然而,现有方法大多依赖于药物的化学结构、副作用等表面特征,往往忽视了药物在分子水平上的作用机制。特别是蛋白质序列和结构信息这一直接决定药物结合亲和力、特异性和作用机制的关键因素,在以往研究中未被充分重视。
正是在这样的背景下,由Saminur Islam领衔的研究团队在《Scientific Reports》上发表了创新性研究成果。他们开发了一种名为蛋白质序列-结构相似性网络(Protein Sequence-Structure Similarity Network, PS3N)的新方法,首次将蛋白质序列和三维结构信息直接整合到药物相互作用预测流程中,为这一领域带来了新的突破。
本研究的核心技术包括:1)从DrugBank数据库获取905种药物的蛋白质序列信息,从蛋白质数据库(PDB)获取相应的三维结构信息;2)采用k-mer(k=4)分解和pString转换技术,将蛋白质序列和结构转化为可计算的特征表示;3)使用余弦相似度、Levenshtein距离和Jensen-Shannon散度等多种相似性度量方法,构建药物间的相似性矩阵;4)应用相似性网络融合(Similarity Network Fusion, SNF)技术整合多源相似性信息,构建统一的PS3N网络;5)设计深度神经网络模型(4个隐藏层,ReLU激活函数,Dropout正则化),利用Adam优化器进行训练,实现对药物相互作用的精准预测。
研究团队首先从DrugBank数据库中收集了905种药物活性成分的相关信息,包括每种药物的蛋白质靶标。对于每个蛋白质靶标,他们获取了相应的氨基酸序列和三维结构数据。为了量化药物之间的相似性,研究人员开发了系统的计算方法。
在蛋白质序列分析方面,研究采用k-mer技术将蛋白质序列分解为长度为4的重叠子序列。通过构建k-mer谱,应用多种相似性度量方法,包括Levenshtein距离、余弦相似度和Jensen-Shannon散度。对于每对药物,计算了最小相似性、最大相似性、平均相似性(AS)和指数加权平均相似性(EWAS),其中EWAS赋予较高相似性值更大权重,更加强调生物学上的显著相似性。
在蛋白质结构分析方面,研究面临更大挑战。由于蛋白质结构包含多条链,每条链都有独特的三维构象,团队首先将三维结构转换为字符串表示(pString),然后采用与序列分析类似的相似性计算方法。这种方法巧妙地将复杂的结构比较问题转化为可计算的序列相似性问题。
研究最具创新性的部分在于相似性网络的集成。如图1所示,团队采用相似性网络融合(SNF)技术,将基于不同相似性度量方法构建的多个网络整合为统一的蛋白质序列-结构相似性网络。在这一过程中,研究人员使用k近邻(KNN)方法(k=5)构建稀疏相似性矩阵,保留每个药物最相似的邻居,减少噪声和虚假全局相似性的影响。
SNF算法通过迭代传播跨网络的相似性信息,即使某些药物对在某一模态中不属于彼此的top-K邻居,跨数据类型的关联性也能在融合过程中得到加强。这种方法能够在保留弱但一致的生物学信号的同时,抑制模态特异性噪声。
PS3N框架的核心是一个精心设计的深度神经网络模型。该模型包含4个隐藏层,每层神经元数量通过交叉验证进行优化。隐藏层使用ReLU激活函数,输出层使用sigmoid函数生成药物对相互作用的概率。为防止过拟合,在每个隐藏层后加入了Dropout层(丢失率0.3-0.5),并采用Xavier权重初始化策略。
模型使用分类交叉熵作为损失函数,Adam作为优化器,学习率设置为0.01。这些设计选择确保了模型在保持较高预测性能的同时,具备良好的泛化能力。研究人员还对比了不同优化器和学习率的组合,发现Adam优化器配合0.01的学习率能带来最佳性能。
研究团队在多个数据集上对PS3N模型进行了全面评估。在DrugBank数据集上,PS3N表现出色,精确度达到0.980,召回率0.982,AUC为0.995,准确率为0.973。与现有最先进方法相比,PS3N在多项指标上均表现优异。
在基准数据集DS1和DS2上的评估进一步验证了模型的稳健性。PS3N在DS1数据集上实现了0.974的精确度、0.992的召回率和0.978的F1分数;在DS2数据集上相应指标分别为0.972、0.987和0.978。统计检验显示,PS3N在大多数性能指标上均显著优于基线方法(p<0.05)。
为检验模型对未知药物的预测能力,研究进行了严格的诱导性分割评估。将药物集分为"已知"(80%)和"新药"(20%)两组,确保训练过程中完全不接触新药信息。测试时评估两种情境:CS1(新药-新药互动)和CS2(已知-新药互动)。
在完全冷启动的CS1场景中,PS3N的准确率达到70.05%,超过SSI-DDI方法的65.02%,显示出对全新药物相互作用预测的强大能力。虽然在AUROC指标上略低于对比方法,但PS3N在二元分类准确率上的优势表明其决策阈值在实践应用中更具价值。
通过PS3N模型,研究团队构建了全面的药物相互作用网络(图2)。该网络包含904种药物,预测得到32,548个潜在新型DDI。设定0.8的置信度阈值后,筛选出26,359个高置信度相互作用,其中82.45%的预测得分在0.95-1.00之间。
网络分析揭示了有趣的聚类模式。左上角聚类包含多巴胺激动剂、吩噻嗪类和抗精神病药物,这些药物几乎全部相互关联,反映了它们共同的作用机制——多巴胺受体靶向。这一发现具有重要临床意义:例如,多巴胺激动剂(DB00714)与吩噻嗪类药物(DB00433,同时是多巴胺拮抗剂)的相互作用可能导致治疗效果降低。
右上角聚类包含利尿剂、Xa因子抑制剂、抗凝剂和凝血因子等心血管药物,揭示了不同药理类别药物间的复杂相互作用。例如,DB00606(利尿剂)与DB00562合用可能增强疗效,而与DB00703合用可能增加低血压风险。
研究最具价值的成果之一是发现了297个全新的药物相互作用(图4),这些相互作用此前从未被报道。这些新发现包括乙酰唑胺(DB00863)与氟哌利多(DB00433)/氯氮平(DB00363)之间、布林唑胺(DB00857)与替沃噻吨(DB01621)之间、以及右美托咪定(DB00695)与丙氯拉嗪(DB00494)/罗匹尼罗(DB00268)之间的相互作用等。
特别值得注意的是氯氮平(DB00363)与罗匹尼罗(DB00268)/伐尼克兰(DB01273)的相互作用。氯氮平是治疗耐药性精神分裂症的有效药物,而罗匹尼罗(用于不宁腿综合征)和伐尼克兰(用于戒烟)在临床实践中常与氯氮平联合使用。这些新发现的相互作用强调了在复杂多病共存患者中药物管理的重要性。
PS3N研究代表了药物相互作用预测领域的重要进展。与以往方法相比,该研究的创新性主要体现在三个方面:首次直接将蛋白质序列和三维结构表征纳入DDI预测流程;计算多个互补的相似性度量,重点关注蛋白质的功能和结构方面;在深度神经架构中端到端集成这些信息,联合学习哪些生物维度最能预示相互作用风险。
研究的实际意义在于为药物安全性评价提供了新工具。通过聚焦药物靶点的生物学特性,PS3N能够捕捉纯粹化学结构为基础或其他药物信息为基础的模型可能忽略的药物关系正交方面。这种方法不仅提高了预测准确性,还增强了DDI预测的生物学可解释性。
研究的临床价值体现在多个方面:首先,为临床医生提供了更全面的药物相互作用参考,有助于优化治疗方案;其次,为制药企业在新药研发早期阶段识别潜在相互作用风险提供了工具,可减少后期研发失败率;最后,为监管机构评价药物安全性提供了科学依据。
然而,研究也存在一定局限性。数据获取的不完整性限制了模型的覆盖范围;蛋白质序列和结构数据的依赖性可能使模型偏向于具有高蛋白质相似性的相互作用;在完全冷启动场景下的性能仍有提升空间。未来研究可考虑整合化学结构、表型效应等多源数据,进一步提高模型的全面性和稳健性。
总体而言,PS3N框架通过创新性地利用蛋白质序列和结构信息,为药物相互作用预测开辟了新途径。其高精度预测能力和对新相互作用的发现能力,展示了计算生物学在药物安全领域的巨大潜力,为未来个性化用药和精准医疗的发展奠定了重要基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号