GPT 携手 PubMed:大型语言模型助力偏头痛药物文献分析,开启研究新征程

【字体: 时间:2025年02月20日 来源:BMC Neurology 2.2

编辑推荐:

  为解决偏头痛文献分析效率低的问题,美国罗格斯大学等机构的研究人员开展用 LLMs 分析偏头痛药物文献的研究。结果显示 LLMs 有潜力。推荐阅读,它能助你了解 LLMs 在医学研究中的应用与价值。

  
在全球范围内,有超过十亿人正遭受着偏头痛的折磨。偏头痛带来的症状不仅具有破坏性,还常常使人身体虚弱,严重影响着患者的生活质量。想象一下,时不时就会头痛欲裂,那种感觉就像脑袋里有个小恶魔在捣乱,让人无法正常工作、学习和生活。尽管在过去十年里,新的偏头痛治疗方法不断涌现,可面对日益增多的相关科学文献,如何高效地分析和整合这些信息,成了摆在科研人员面前的一道难题。

就好比在一个巨大的知识宝库中寻找宝藏,文献资料越来越多,却没有一个高效的 “寻宝图”,这可让科研人员犯了难。就在大家为此发愁的时候,大型语言模型(LLMs)的出现,给这个难题的解决带来了一丝曙光。像 OpenAI 的 GPT 家族(其中 ChatGPT 大家可能比较熟悉),还有 Google 的 Gemini(以前叫 Bard),这些大型语言模型有着强大的能力,它们能像超级助手一样,自动对研究结果进行合成和总结。简单来说,LLMs 就像是经过海量知识训练的 “智能大脑”,可以快速地模拟人类阅读、分析和解读文章的过程,这对于偏头痛治疗相关的研究来说,简直就是一个 “神器”。

与此同时,情感分析技术也在不断发展。情感分析是一种数据科学技术,它能像 “情绪探测器” 一样,判断一段文本表达的是积极、消极还是中性的情感。在科学文献回顾中,这项技术能通过识别关键词和短语,量化文本的情感倾向,从而提供有价值的见解。比如,看到 “成功”“有效” 这些词,就知道这段文本对某个药物的情感倾向可能是积极的;要是出现 “无效”“有害”,那情感倾向大概率就是消极的。有研究表明,通过情感分析技术,能大大提高文献回顾的效率。这就引发了科研人员的思考:要是把大型语言模型和情感分析技术结合起来,能不能解决偏头痛文献分析的难题呢?

为了探索这个问题的答案,来自美国罗格斯大学罗伯特?伍德?约翰逊医学院神经学系的 Elyse Mackenzie、Roger Cheng,以及贝斯以色列女执事医疗中心神经学系和哈佛医学院的 Pengfei Zhang,在《BMC Neurology》期刊上发表了一篇名为 “GPT meets PubMed: a novel approach to literature review using a large language model to crowdsource migraine medication reviews” 的论文。他们的研究发现,大型语言模型在偏头痛文献分析方面具有很大的潜力。虽然在研究过程中遇到了一些问题,比如模型输出不一致、方法存在局限性,但这一研究结果还是给偏头痛研究领域带来了新的希望,为后续的研究和临床实践指明了新的方向。

在这项研究中,研究人员主要运用了以下几个关键技术方法:首先,他们从 FDA 的 “橙皮书” 和 “紫皮书” 中提取了药物和生物制剂的综合清单,然后通过一个包含 466,550 个英文单词的公开数据库进行筛选,确定了用于研究的偏头痛药物名称。接着,利用 PubMed 的医学主题词(MeSH)检索 “偏头痛障碍”,并筛选出临床试验相关的文章摘要。之后,研究人员向 GPT - 4 和 PaLM2 的 API 发送标准化提示,让模型对摘要中出现的药物疗效进行情感分析。最后,他们分别使用二元累积求和模型和基于分布的模型,对情感分析的结果进行分类和处理,以此来判断药物的疗效。

下面我们来详细看看研究结果。

二元结果


在二元模型的研究中,研究人员让 Gemini 和 GPT 对大量文献进行分析。经过一系列的筛选和处理,排除那些无意义的条目后,Gemini 确定的十种最有利的药物包括舒马曲坦、托吡酯、利扎曲坦等;GPT 确定的则是舒马曲坦、托吡酯、利扎曲坦等(其中除了甲氧氯普胺,其他药物均已获得 FDA 批准用于治疗偏头痛)。这些药物在治疗偏头痛方面似乎有着不错的 “口碑”,就像是班级里的 “优等生”,在模型的评估中脱颖而出。

基于分布的结果


基于分布的模型研究则更加细致。在 Gemini 的数据集中,经过人工验证后确定了 71 种药物,其中 41 种药物的 PubMed 文章数量超过五篇。在这些药物中,有 33 种药物的平均情感得分大于 0.5,得分最高的十种药物包括 fremanezumab、eptinezumab 等(除了布比卡因、唑尼沙胺和左乙拉西坦,其他药物均已获得 FDA 批准用于治疗偏头痛)。GPT 的数据集中,经过人工验证确定了 90 种药物,46 种药物的 PubMed 文章数量超过五篇,38 种药物的平均情感得分大于 0.5,得分最高的十种药物包括 fremanezumab、naproxen/sumatriptan 等(所有这些药物均已获得 FDA 批准用于治疗偏头痛)。这些数据就像一份详细的 “药物实力排行榜”,让我们能更清楚地了解各种药物在研究中的表现。

事后分析和人工评分


为了进一步验证模型的准确性,研究人员还进行了事后分析。他们随机挑选了 100 篇摘要进行人工评分,并与 GPT 和 Gemini 的结果进行对比。在二元模型中,GPT 有 61 篇摘要与人工评分匹配,21 篇评分不同,18 篇存在非显著差异;Gemini 有 53 篇匹配,37 篇不同,10 篇存在非显著差异。在基于分布的模型中,偏差超过 0.1 就被认为是显著差异,GPT 有 58 篇匹配,25 篇不匹配,17 篇存在非显著差异;Gemini 有 52 篇匹配,37 篇不匹配,11 篇存在非显著差异。这就像是一场模型和人工的 “比赛”,虽然模型在很多时候表现得还不错,但还是和人工评分存在一些差距。

从研究结论和讨论部分来看,这项研究有着重要的意义。研究人员发现,无论是二元模型还是非二元模型,得到的 “最积极” 情感的药物都与美国头痛协会指南中基于证据的偏头痛治疗选择相吻合。这说明大型语言模型可以作为辅助工具,在偏头痛文献分析中发挥重要作用,帮助科研人员更快地找到有潜力的治疗药物。

不过,研究过程中也暴露出一些问题。一方面,GPT 和 Gemini 都存在一些缺点,比如对药物的分类不准确、会生成一些虚假的新兴偏头痛疗法、引用来源不准确等。而且,即使给它们提供了明确统一的提示,模型在执行时还是会出现不一致的情况。另一方面,模型和人工评分之间存在一定的差异,这也反映出模型在准确性方面还有提升的空间。另外,不同模型之间的输出结果也不完全相同,这说明大型语言模型在不同平台上的可重复性存在问题。

尽管存在这些局限性,但大型语言模型在偏头痛研究中的潜力还是不可忽视的。对于临床医生来说,通过情感分析得到的结果可以作为一个初步筛选工具,帮助他们快速找到值得进一步研究的治疗方法。比如,在为患者选择治疗方案时,医生可以参考模型分析的结果,选择那些在研究中表现较好的药物。对于研究人员来说,情感分析的趋势可以帮助他们发现文献中的空白点,评估新疗法的接受程度。虽然情感分析不能完全取代传统的文献回顾方法,但它为临床和研究工作提供了一个非常有用的补充工具。

随着机器学习技术的不断发展,未来我们有望解决这些问题,让大型语言模型在头痛医学研究以及更广泛的医疗领域发挥更大的作用。就像给科研人员配备了一个越来越聪明、越来越可靠的助手,帮助他们在医学研究的道路上更快地前行,找到更多治疗偏头痛以及其他疾病的有效方法,为人类的健康事业做出更大的贡献。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号