编辑推荐:
药物研发耗时费资,药物再利用成重要方向。本文针对从海量文献中识别再利用药物的难题,研究人员利用 Word2Vec 算法构建 NLP 模型,在 PubMed 摘要训练后筛选精神病潜在药物。结果在不同数据集呈现差异,为药物再利用提供新框架。
药物研发的漫漫长路与高昂成本,如同横亘在医学进步面前的两座大山。一款创新药物从研发到上市,往往需要超过 20 年的时间,耗费约 25 亿美元,且临床试验成功率极低。在这样的背景下,药物再利用(Drug Repurposing)犹如一道曙光,吸引着科研人员的目光。这种利用已获批药物探索新适应症的策略,既能规避传统研发的早期高成本阶段,又能借助现有药物的安全性数据加速进程。然而,面对每年新增数十万篇的生物医学文献,如何高效挖掘潜在的药物 - 疾病关联,成为制约该领域发展的关键瓶颈。
来自英国伦敦国王学院(King’s College London)的研究团队,针对这一挑战展开了深入研究。他们聚焦于精神病(Psychosis)这一严重公共卫生问题,旨在开发一种可推广的药物再利用识别方法。研究成果发表在《BMC Digital Health》,为药物研发领域提供了极具价值的新思路。
研究方法与关键技术
研究采用自然语言处理(Natural Language Processing, NLP)领域的 Word2Vec 算法作为核心工具。该算法通过将文字转化为数值向量(Word Embeddings),捕捉词汇间的语义关联,例如 “king—man + woman” 可推导出 “queen” 的向量表示。研究人员在 Google Colab 平台上,利用 2000-2023 年的 230 万篇 PubMed 摘要训练模型,以已知抗精神病药物氯氮平(Clozapine)为基准,通过余弦相似度筛选未被文献明确关联的潜在药物。
筛选出的候选药物(如头孢菌素类抗生素)进一步在三个独立电子健康记录(Electronic Health Records, EHR)数据集验证:美国的 MIMIC-IV(包含 30 万患者记录)、英国的 CRIS(聚焦精神卫生服务)和巴西的 BRATECA(因缺乏诊断数据未纳入分析)。研究运用回顾性队列设计,通过 Cox 比例风险模型计算风险比(Hazard Ratio, HR),评估药物与精神病住院风险的关联。
研究结果
假设生成:Word2Vec 模型的预测能力
训练后的模型基于氯氮平的向量表示,识别出 10 个候选药物,其中头孢吡肟(Cefepime,第四代头孢菌素)因在 MIMIC-IV 中使用患者量最大(N=6605)被选为验证对象。模型通过分析药物与氯氮平的上下文词汇关联(如神经递质调节、微生物组影响),推测其潜在抗精神病机制。
假设验证:跨数据集的结果差异
- MIMIC-IV 数据集:
整体头孢菌素使用与精神病住院风险降低相关(调整后 HR=0.94, 95% CI: 0.90–0.99),严重精神疾病(Severe Mental Illness, SMI)亚组效果更显著(HR=0.52, 0.45–0.60),但头孢吡肟单独分析显示风险升高(HR=1.28, 1.16–1.42)。
- CRIS 数据集:
头孢菌素使用与精神病风险显著增加相关(HR=3.56, 2.66–4.77),SMI 和器质性精神病亚组均呈现风险升高。
- BRATECA 数据集:
因缺乏诊断数据,无法进行有效分析。
研究结论与讨论
本研究构建的 “文献挖掘 - 多队列验证” 框架,证实了机器学习在药物再利用中的可行性。尽管头孢菌素在不同人群中的效果差异显著(可能与医疗环境、患者基线特征相关),但该方法成功生成可验证假设,为后续机制研究奠定基础。例如,MIMIC-IV 中 SMI 亚组的强保护效应(48% 风险降低)提示,头孢菌素可能通过调节肠道微生物组或血脑屏障等途径发挥作用,这与抗精神病药物的已知机制存在潜在交集。
研究同时揭示了跨人群研究的重要性:美国综合医院人群中的保护性信号与英国精神专科人群的风险信号形成鲜明对比,提示药物疗效可能受医疗系统、处方习惯和患者病理特征影响。这为精准医学视角下的药物再利用提供了关键启示 —— 需结合人群特征制定转化策略。
尽管存在数据局限性(如未测量混杂因素、依赖观察性研究),本研究仍为药物研发提供了低成本、可复现的新范式。未来结合更先进的 NLP 模型(如 BERT、BioBERT)和全文本分析,有望进一步提升预测准确性。此外,扩展至帕金森病、糖尿病等更多疾病领域,将推动该方法成为跨学科研究的通用工具。
这项研究不仅是一次技术突破,更标志着人工智能与医学研究深度融合的新起点。它向我们展示,即使在看似无关的抗生素领域,也可能隐藏着治疗精神疾病的线索,而数据驱动的创新方法,正为解开这些医学谜题提供前所未有的钥匙。