数据驱动下的药物再定位策略:整合多源药物-靶点数据、理化指纹与通路模型,加速抗癌新药发现

《Briefings in Bioinformatics》:Data-driven strategies for drug repurposing: insights, recommendations, and case studies

【字体: 时间:2025年11月25日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  面对新药研发周期长、成本高的瓶颈,作者整合ChEMBL、BindingDB、GtoPdb三大数据库,系统构建28种疾病-817种适应症的理化性质图谱,并搭建基于KEGG通路的再定位管道,在10大癌种中快速筛出潜在老药新用候选,为转化医学提供可复制的数据范式。

  
新药从实验室走向药房平均需9-15年、耗资10-30亿美元,且失败率居高不下,成为制约全球健康创新的“堵点”。当传统研发管线步履维艰时,老药新用(Drug Repurposing)凭借现成的安全性与药动学数据,被视为“捷径”。然而,面对海量的药物-靶点相互作用(DTI)信息,如何剔除噪声、捕捉真正的跨适应症线索,一直是计算药学的难题。Savander等人在《Briefings in Bioinformatics》2025年第26卷发表的研究,正是瞄准这一痛点,通过整合三大权威数据库——ChEMBL、BindingDB与GtoPdb,绘制了首张覆盖28大治疗群、817种临床适应症的药物理化“指纹”地图,并开发出一套可推广的通路导向再定位管道,为抗癌及其他重症治疗打开数据驱动的新思路。
作者首先系统比较了三大库的收载范围与人工校验策略:ChEMBL v33含2100万条生物活性数据,3492种已上市药物;BindingDB聚焦实验测得的亲和力(K、K、IC),提供240万条记录;GtoPdb则凭借专家人工 curated,侧重GPCR、离子通道等临床相关靶标。通过统一InChIKey与UniProt ID,团队将2306个已批准药物蛋白靶点归入12大功能家族(酶、激酶、GPCR、核受体等),发现激酶与GPCR的跨库覆盖度最高,为后续多靶点模型奠定数据基石。
在“适应症-理化”关联部分,研究将ChEMBL中2330个已上市药物按解剖-治疗分类映射至28个疾病群,提取15项核心理化参数(如alogP、PSA、HBD等)。经Z-score归一化与层次聚类后,发现“牙科疾病”与“头颈部疾患”药物在理化空间几乎重叠,而抗肿瘤与良性肿瘤药物亦呈显著聚集,提示同类疾病对分子透膜性、极性表面积等指标具有“偏好”。这一“理化指纹”可作为早期化合物筛选的定量边界,减少试错成本。
进一步,作者剖析药物跨适应症共享格局:抗感染药物(751个)与呼吸系统、眼病分别共享67与55个成分,揭示广谱抗微生物药在黏膜感染中的再定位潜力;而癌症、血液病与代谢病三者共享百种以上药物,反映代谢重编程(Metabolic Reprogramming)在恶性疾病中的共通性,为老药新用提供生物学依据。
在最受关注的“十大高频再定位药物”榜单中,地塞米松(Dexamethasone)以74种适应症居首,其通过核受体(NR3C1)调控炎症、免疫与凋亡网络,且与11种蛋白存在实测相互作用,展现出典型的多靶点(Polypharmacology)特征;甲氨蝶呤、多柔比星等亦位列其中,提示“一药多靶”是老药广域应用的共性规律。
研究还构建了一条“通路导向再定位管道”作为示范:从KEGG提取前列腺癌、乳腺癌、非小细胞肺癌等10大癌种的377条疾病基因,映射为375个UniProt蛋白;再以ChEMBL中已批准药物为候选,计算其与通路靶点的重叠率。设定pChEMBL≥5、≥6、≥7三档活性阈值及≥10%通路覆盖率,最终筛出270(pChEMBL≥5)至18条(pChEMBL≥7)高质量再定位线索,其中乳腺癌获得最多候选,而子宫内膜癌、肝癌尚无上市药物,显示再定位需求最为迫切。该框架完全开源,可一键迁移至罕见病或其他癌种。
关键技术方法概括:1)多库DTI数据标准化与InChIKey/UniProt ID映射;2)12家族靶标与28适应症群的人工分类;3)15维理化参数提取与Z-score聚类;4)基于KEGG通路基因集的目标蛋白映射;5)pChEMBL加权中位数聚合与≥10%通路覆盖筛选策略。
研究结果分四部分呈现:
一、三大数据库比较:ChEMBL靶标覆盖度均值10,显著高于BindingDB(7)与GtoPdb(3),且高置信阈值下趋势依旧,凸显其作为再定位首选资源的地位。
二、靶标家族分布:酶、激酶、GPCR在所有库中占比最高,提供跨疾病共通干预节点。
三、理化-适应症聚类:发现PSA与HBD数值与中枢神经药物渗透率显著相关,为CNS药物设计给出定量区间。
四、通路导向案例:10癌种再定位候选随活性阈值提高而递减,但机制相关性增强,提示平衡“丰度”与“精度”是再定位策略的核心。
结论与讨论指出,本研究通过“数据整合-理化画像-通路验证”三步法,将老药新用从经验试错推向定量决策,显著缩短早期筛选周期;同时,作者亦提醒:KEGG通路尚缺组织特异性,且未整合药动学与毒性数据,未来需结合转录组、蛋白质组及临床真实世界证据,实现“网络医学”级别的精准再定位。整体而言,该框架为抗癌、罕见病乃至抗感染领域的药物重定位提供了可复制、可扩展的数据模板,标志着药物发现从“大海捞针”迈向“按图索骥”的新阶段。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号