大语言模型助力肿瘤临床试验生物标志物匹配:突破与进展

【字体: 时间:2025年05月07日 来源:npj Digital Medicine 12.4

编辑推荐:

  肿瘤临床试验患者招募困难,临床数据结构化难。研究人员开展基于大语言模型(LLMs)提取肿瘤试验遗传生物标志物的研究。结果显示开源模型表现出色,微调可提升性能。该研究为精准匹配患者和试验提供新途径。

  在当今的医疗领域,癌症犹如一座难以攻克的险峻山峰,威胁着无数人的生命健康。据国际癌症研究机构(IARC)的全球癌症观察站(GLOBOCAN)统计,2022 年全球新增癌症病例近 2000 万,死亡人数约 970 万。传统的癌症治疗手段,像手术、化疗和放疗,虽在一定程度上发挥着作用,但却存在诸多局限。手术往往只能在癌症早期进行,化疗和放疗不仅对部分癌症类型效果不佳,还会对健康细胞造成损害,带来严重的副作用。
在此背景下,精准医学成为了癌症治疗领域的一颗希望之星。它通过研究患者的遗传学、生活方式和环境信息,为患者量身定制最有效的治疗方案,既能提高治疗效果,又能减少不必要的诊断和治疗。而在精准医学中,基因组生物标志物(genomic biomarkers)对于指导治疗决策和匹配患者与合适的临床试验至关重要。然而,确定患者是否符合临床试验入组条件的信息却分散在大量非结构化文本中,这给患者与临床试验的精准匹配带来了极大的困难。许多临床试验因患者招募不足而失败,提高招募效率、实现患者与临床试验的精准匹配迫在眉睫。

为了解决这一难题,柏林医学系统生物学研究所(Berlin Institute for Medical Systems Biology,BIMSB)、马克斯?德尔布吕克分子医学中心(Max Delbrück Center for Molecular Medicine)的研究人员 Nour Alkhoury、Maqsood Shaik 等人开展了一项极具意义的研究。他们聚焦于利用大语言模型(Large Language Models,LLMs)从肿瘤临床试验研究描述中提取遗传生物标志物,以增强基于生物标志物的患者与临床试验匹配。该研究成果发表在《npj Digital Medicine》杂志上,为癌症治疗领域带来了新的曙光。

研究人员在此次研究中运用了多种关键技术方法。首先,他们从 clinicaltrials.gov 数据库检索和处理肿瘤相关临床试验数据,并利用 CIViC 数据库中的 500 个基因组生物标志物进行语义搜索,筛选出相关试验。之后,对部分试验进行手动注释,构建训练和测试数据集。在模型研究方面,他们考察了闭源模型 GPT-3.5-Turbo、GPT-4 和开源模型 NousResearch/Hermes-2-Pro-Mistral-7B 的性能,运用零样本(zero-shot)、少样本(few-shot)和提示链(prompt chaining)等提示技术,并使用直接偏好优化(Direct Preference Optimization,DPO)对开源模型进行微调。

下面来看具体的研究结果:

  • 数据整理和试验数据特征:研究人员从 CIViC 数据库确定了 500 个与癌症诊断和治疗相关的生物标志物,并基于 AACR-genie 癌症患者队列数据估算出 23.56% 的患者至少有一种与 CIViC 生物标志物对应的突变,其中结直肠癌、乳腺癌和胶质瘤患者的突变频率较高。从 clinicaltrials.gov 获取的肿瘤临床试验中,筛选出 296 个可能存在生物标志物的试验,手动注释 166 个,最终构建训练集和测试集,并为 DPO 微调准备了两个数据集123
  • 零样本、少样本和提示链性能:在初步评估中,零样本提示下,GPT-3.5-Turbo 提取纳入生物标志物的 F2分数为 0.45,提取排除生物标志物的 F2分数仅 0.06;GPT-4 表现稍好,F2分数分别为 0.56 和 0.42;Hermes-2-Pro-Mistral-7B 表现出色,F2分数分别达 0.98 和 0.66。在更成熟的评估中,考虑生物标志物结构化输出时,Hermes-2-Pro-Mistral-7B 在零样本提示下优势更明显,其提取纳入生物标志物的 F2分数为 0.94,约是 GPT-4 的 3.24 倍,提取排除生物标志物的 F2分数为 0.65,约是 GPT-4 的 1.5 倍45
  • 微调模型性能:对 Hermes-2-Pro-Mistral-7B 进行 DPO 微调后,使用较小数据集(DPO-92)微调的 Hermes-FT 模型性能有所下降,而使用较大数据集(DPO-156)微调的 Hermes-FT-synth 模型表现卓越,提取纳入和排除生物标志物的 F2分数分别达到 0.90 和 0.93,虽在纳入生物标志物提取召回率上较基础模型略有下降,但整体性能超越其他模型6

研究结论和讨论部分指出,该研究探索了闭源和开源 LLMs 在增强患者与基于生物标志物的肿瘤临床试验匹配方面的能力。研究发现,开源模型 Hermes-2-Pro-Mistral-7B 在零样本提示下整体推理能力优于闭源模型 GPT-3.5-Turbo 和 GPT-4,这表明模型规模增加并不一定意味着性能更好,训练过程至关重要。同时,研究还揭示了不同提示技术的效果差异,如少样本提示中示例选择的重要性、提示链可靠性相对较低等。此外,通过 DPO 微调模型时,数据集大小对模型性能影响显著,增加合成样本可提升模型表现。

这项研究意义重大,它证明了利用 LLMs 提取结构化生物标志物并以 DNF 形式输出的可行性,为后续更高效地匹配患者与临床试验奠定了基础。尽管研究存在数据集较小、示例选择可能导致过拟合等局限性,但随着技术的不断发展,结合光学字符识别(OCR)和 NLP 等技术的进一步研究,有望解决现实临床数据处理中的更多挑战,推动癌症精准治疗的发展,为无数癌症患者带来新的希望。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号