基于文献数据挖掘与Jaccard系数的药物重定位新策略研究

【字体: 时间:2025年08月02日 来源:BMC Bioinformatics 3.3

编辑推荐:

  本研究针对传统药物开发周期长、成本高、失败率高的痛点,创新性提出基于文献引用网络和Jaccard系数的计算方法。研究人员通过分析19,553组药物对,验证了文献相似性与GO、化学结构、临床特征等生物药理指标的正相关性(AUC=0.593),筛选出阿达帕林-贝沙罗汀等潜力组合,为加速药物发现提供了高效的计算生物学方案。

  

在医药研发领域,新药开发如同攀登珠峰——平均耗时12-15年、耗资2.8亿美元的征程中,86.2%的候选药物倒在临床试验第一阶段。面对这一困境,南方科技大学统计与数据科学系的梁向龙、马奕芳团队另辟蹊径,将目光投向200万篇生物医学文献构成的"知识金矿",在《BMC Bioinformatics》发表了一项突破性研究。

传统药物重定位方法各有限制:机器学习存在"黑箱"难题,蛋白质互作网络覆盖不全,文本语义分析缺乏统一标准。研究团队创新性地构建药物-靶点-文献三元关系网络,通过计算文献Jaccard系数(公式1:|A∩B|/|A∪B|)量化药物相似性。该方法巧妙利用科学文献引用规律,将靶点相似性转化为文献重叠度分析,首次实现从海量文献中自动挖掘重定位线索。

关键技术包括:1) 从OpenAlex和NCBI获取1978种FDA批准药物的2254个靶点相关文献;2) 构建文献引用网络计算Jaccard系数和log(C1 Ratio);3) 采用repoDB数据库的10,125组药物对(含6,797真阳性)验证性能;4) 整合GO注释、化学指纹、共表达等5类生物药理指标进行多维验证。

研究结果

文献相似性与生物特性的关联

分析显示,Jaccard系数与GO功能(BP/MF/CC)、化学相似性(Tanimoto系数)、靶点共表达(|PCC|)等均呈显著正相关(图2a-g)。当文献重叠度增加时,药物在分子功能(MF)相似性提升达300%,证明文献网络能有效捕捉深层生物特征。

方法性能验证

在6,797组真阳性数据中,Jaccard系数的AUC(0.779)显著优于log(C1 Ratio)和蛋白互作分离度(图4a-f),F1分数(0.593)显示其尤其适合不平衡数据集。随机文献对照实验(图3)进一步证实文献重叠非偶然现象(p<0.001)。

潜力药物组合发现

通过设定γ分位数阈值(γ=0.01-0.10),筛选出19,553组候选对,包括:

  • 阿达帕林(痤疮药)与贝沙罗汀(皮肤T细胞淋巴瘤药):共享维甲酸受体靶点

  • 胍那苄(降压药)与替扎尼定(肌松药):均作用于α2肾上腺素受体

  • 阿尔维莫潘(术后肠梗阻药)与甲基纳曲酮(阿片类药物便秘药):协同调节μ阿片受体

研究结论

该工作建立了首个基于文献网络的药物重定位计算框架,其创新性体现在:

  1. 将文献计量学引入药物发现,突破传统方法的数据局限;

  2. 验证文献相似性与5类生物标记的定量关系,为"相似药物治相似病"提供新证据;

  3. 开源19,553组候选组合,包含3类机制明确的跨适应症案例。

正如研究者指出,该方法未来可结合语义分析优化阈值选择,其"文献即数据"的理念为AI驱动的药物研发开辟了新路径。在个性化医疗时代,这种低成本、高效率的计算策略,或将成为破解药物开发"死亡之谷"的重要钥匙。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号