编辑推荐:
为解决药物 - 基因关系预测难题,研究人员基于 PubMed 摘要训练词嵌入模型(如 BioConceptVec、skip-gram),通过类比计算预测靶基因。发现结合生物通路分类可提升性能,且该方法与 GPT-4 等大模型性能相当,为药物研发提供新方向。
在生命科学领域,药物与基因相互作用的研究是理解疾病机制和开发精准疗法的关键。然而,传统方法依赖实验验证,成本高且耗时长。随着生物医学数据的爆炸式增长,如何从海量文献中挖掘潜在的药物 - 基因关系成为挑战。自然语言处理(NLP)技术的兴起为解决这一问题提供了新思路,其核心在于通过词嵌入(word embeddings)将文本中的生物概念转化为高维向量,捕捉隐含语义关系。但现有研究多聚焦于单一关系预测,缺乏对生物通路等复杂背景的整合,且在跨时间预测未知关系方面探索不足。
为突破上述瓶颈,日本京都大学(Kyoto University)的研究人员开展了一项创新研究,旨在验证词嵌入模型能否通过类比计算(analogy computation)预测药物 - 基因关系,并探究生物通路分类对预测性能的影响。相关成果发表于《Scientific Reports》,为药物靶标发现提供了一种高效、低成本的计算方法。
研究采用两大关键技术:一是基于 PubMed 摘要训练 skip-gram 词嵌入模型,包括预训练的 BioConceptVec(100 维)和自研的 300 维模型,通过 PubTator 工具归一化生物概念(如基因、药物);二是类比计算框架,通过向量差平均化定义药物 - 基因关系向量(如v^=ER{ug?ud}),结合全局(Global setting)和通路(Pathway-wise setting)两种场景进行预测。实验数据源于 KEGG 数据库,涵盖 6645 对药物 - 基因关系,并按年份划分数据集以验证跨时间预测能力。
研究结果
1. 全局场景下的类比计算性能
在全局设置中,通过计算所有药物 - 基因对的平均向量差(v^),BioConceptVec 和自研 skip-gram 模型均展现出显著预测能力。例如,自研模型的 top-1 准确率约 0.3,top-10 准确率超 0.6,MRR(平均倒数排名)超 0.4。这表明词嵌入确实捕获了药物 - 基因关系的隐含信息,且无需显式标注关系数据,仅通过文本训练即可实现预测。
2. 生物通路分类提升预测精度
引入 KEGG 生物通路信息后,将药物和基因按通路分组(如 ErbB 信号通路),计算组内关系向量(v^p)。结果显示,通路场景(P1/P2)的预测性能显著优于全局场景。以自研模型为例,P1 和 P2 的 top-1 准确率均超 0.5,表明利用生物通路的功能相关性可缩小搜索空间,提升预测特异性。例如,在 ErbB 通路中,药物 Bosutinib 的靶基因 ABL1 和 SRC 均被准确预测,且高排名基因如 TXK、JAK2 与已知激酶功能高度相关。
3. 跨时间预测未知关系
通过按年份分割数据集,验证模型对 “未来” 未知关系的预测能力。在设置 Y2 中,使用截至年份 y 的已知关系训练向量(v^y∣Ly),预测 y 年后的未知关系。结果显示,top-10 准确率在 0.3 以上,表明模型可通过历史数据捕捉关系演化模式,为早期预测新靶点提供可能。例如,1985-2015 年间的预测显示,即使未包含后续数据,模型仍能通过已知关系向量识别潜在靶点。
4. 与大模型和基线方法的对比
与知识图谱嵌入(KGE)模型 TransE 相比,自研方法在小数据场景下表现更优,而 TransE 在数据充足时精度更高。与 GPT 系列大模型(GPT-3.5、GPT-4、GPT-4o)相比,词嵌入类比计算的 top-10 准确率与之相当,甚至在通路场景中超越 GPT-4,突显了简单向量运算在特定任务中的高效性。
结论与意义
本研究首次将类比计算系统应用于药物 - 基因关系预测,证明了词嵌入模型在生物医学领域的强大潜力。核心结论包括:
- 词嵌入(如 skip-gram)通过文本训练可自发捕获药物 - 基因关系,类比计算是有效的关系推理工具;
- 生物通路分类显著提升预测精度,揭示了功能语境对关系建模的重要性;
- 跨时间预测验证了模型对未知关系的前瞻性,为药物研发中的早期靶点筛选提供了新范式。
研究局限性在于仅聚焦药物 - 基因关系,未扩展至其他生物实体(如疾病 - 基因),且静态词嵌入无法处理上下文语义变化。未来可结合动态嵌入模型(如 BERT)和多模态数据,进一步提升预测泛化能力。尽管如此,该研究为计算生物学和药物发现提供了低成本、可扩展的新方法,有望加速从文献到临床应用的转化。