编辑推荐:
癌症临床试验资源密集且复杂,给社区及农村癌症诊所带来基础设施障碍。研究探索大语言模型(如 ChatGPT-4)通过总结非结构化电子健康记录(EHR)数据加速队列预筛选和患者 - 试验匹配,虽需优化验证,却有望突破现有瓶颈。
临床试验正面临日益增长的人员投入需求与招募管理复杂性,这为社区和农村癌症诊所设置了基础设施壁垒。像 ChatGPT-4 这样的大语言模型(LLMs)展现出巨大潜力,可通过总结非结构化电子健康记录(EHR)数据,加速队列层面的试验预筛选以及临床医生层面的患者 - 试验匹配。
关键点如下:癌症临床试验愈发耗费资源且流程复杂,给社区和农村癌症诊所带来基础设施障碍;与其他基于人工智能(AI)的工具协同,大语言模型(如 ChatGPT-4)能通过总结非结构化电子健康记录(EHR)数据,加快试验预筛选并实现患者与试验的精准匹配;尽管潜力显著,但在大语言模型有效融入真实世界临床研究工作流程前,仍需进一步优化和验证。
癌症临床试验是高质量癌症诊疗的核心,为患者提供前沿疗法的同时助力肿瘤学家优化现有治疗方案。然而,肿瘤试验执行难度大,需大量基础设施与资金投入。研发一种抗癌药物的中位成本达 6.48 亿美元,整个过程(从 1 期到 3 期)可能耗时近 12 年1,2。随着越来越多癌症疗法基于生物标志物,试验在设计与实施上愈发复杂,每个方案都有更具体的纳入标准、终点指标、数据点以及所需患者访视次数3。与此同时,试验预筛选依旧耗时费力。尽管 70% 的患者表示愿意参与临床试验,但最终仅有 7% 的患者实际参与4,5。
在社区和农村医疗环境中,这些基础设施障碍更为突出,当地癌症诊所可能缺乏应对试验预筛选、入组及持续管理复杂性的资源6,7。因此,大多数肿瘤试验地点往往集中在学术中心周边,且参与者多为附近患者8。在患者数量较少或农村地区,试验可及性有限可能导致这些人群的治疗结果存在差异,他们难以及时获得最新疗法。而 ChatGPT-4 等大语言模型为这些患者拓宽临床试验参与渠道提供了新途径。
近年来,各类特定领域的基于人工智能的工具相继开发,用于加速临床试验过程的特定阶段,从为研究设计提供信息到分析海量输入数据9。许多工具对临床研究人员极具价值,必将提升癌症试验的有效性。例如,基于机器学习的预测算法可评估患者对治疗的反应,并为更多患者分配个性化有效治疗方案,这一过程对已用尽美国食品药品监督管理局(FDA)批准疗法的晚期癌症患者尤为重要10。这些工具还针对流程中的限速步骤。事实证明,在筛选癌症试验患者入组方面,人工智能比人工筛选更高效11。然而,许多此类算法需要使用针对具体案例的代码进行微调,开发和实施往往耗费资源,只有具备足够资金和专业知识的癌症中心才能在其临床试验筛选项目中集成和验证这些算法。
对于肿瘤学家和患者而言,一种更易上手的工具 ——ChatGPT-4,可能有望降低临床试验的基础设施壁垒。该模型及其他大语言模型能够针对广泛查询生成类似人类语言的文本响应。大语言模型为日益复杂的临床试验事业带来独特贡献:用户友好的界面结合总结海量数据的能力。临床团队无需编写代码分析数据,只需与聊天机器人就特定患者展开对话,讨论入组资格、预入组检测或研究设计的其他方面。
面向试验预筛选的大语言模型正围绕临床医生终端用户需求迅速发展。通常,这些系统集成三个组件:针对临床术语和试验入组逻辑进行微调的预训练大语言模型、来自 ClinicalTrials.gov 等来源的关于纳入 / 排除标准的特定领域数据,以及用于将个体与试验要求匹配的患者层面电子健康记录数据。
临床研究人员已开始探索大语言模型分析患者电子健康记录中基于文本的记录以实现试验筛选自动化的能力。去年,研究人员将 GPT-4(ChatGPT-4 使用的大语言模型基础)与优化用于检索临床记录数据的工具结合,开发出一个问答系统,该系统能够准确识别符合 COPILOT-HF 试验标准的有症状心力衰竭患者,并与研究人员和专家临床医生的判断进行对比12。GPT-4 的评估成本可能比人工方法低几个数量级。
这种预筛选方法可通过减少临床研究人员针对特定入组标准或特定基因组、分子特征进行早期靶向筛选的时间,促进肿瘤试验的更广泛参与。它还能实现更高效的队列识别,这通常依赖于隐藏在电子健康记录非结构化部分(包括自由文本病程记录和扫描 PDF)中的癌症特异性数据(如分期、治疗、生物标志物检测)。大语言模型在无需大量人工注释或模型训练的情况下,能高效地将临床记录中的大量非结构化数据处理为结构化形式13。这对弱势患者尤为重要,因为他们更可能就诊于多家医疗机构,导致电子健康记录数据碎片化及更多非结构化或缺失文本14。
对许多肿瘤学家及其患者而言,首要挑战是首先确定相关试验。患者的医疗团队可能缺乏搜索临床试验的时间和资源,这意味着该过程往往落到患者身上,而对患者来说,寻找合适的研究令人望而生畏。在非学术环境中,肿瘤学家对试验选项缺乏了解是一个特殊挑战8。
患者 - 试验匹配可能是大语言模型产生最大影响的领域。去年,美国国立卫生研究院(NIH)领导的团队创建了 TrialGPT15。给定患者和临床试验的描述,TrialGPT 首先判断患者是否符合试验中的每项标准,并提供解释。它将这些评估汇总为试验层面的评分,并在多个试验中进行此操作,生成基于排名的入组可能性列表。使用该工具的临床医生生成类似准确试验选项列表的时间减少了 40%,显著减轻了为患者搜索试验的手动负担。
有初步证据显示,GPT-4 能为头颈部癌症患者提供临床试验推荐;当提示更具体且癌症类型具有更明确数据集时,该大语言模型的推荐更为精准16。
这种匹配过程也可由试验申办方进行,他们可查询各站点的电子健康记录,确定符合条件的患者大致数量,以决定是否在该地点开展试验。目前正开展相关工作,利用 GPT-4 将临床试验入组标准转化为可执行的数据库查询17。
患者入组试验后,持续管理是一项长期挑战。由大语言模型驱动的聊天机器人可帮助解答患者在试验期间提出的问题、监测症状,并为试验要求的随访安排预约。卫生系统已在探索使用基于大语言模型的聊天机器人远程监测癌症患者的用药计划和副作用,使临床医生能够在出现早期问题迹象时介入18-20。这种互动式患者参与方法可适配特定临床试验,以监测试验特定不良事件,并有助于将肿瘤研究中 30%-50% 的试验脱落率降至最低21。
尽管大语言模型在临床试验支持方面潜力巨大,但目前除受控研究外,很少在癌症诊疗环境中实际应用。这一新兴领域需要耐心和仔细验证,同时需优化大语言模型、解决数据隐私问题并完善临床工作流程。整个领域需要更好的以肿瘤学为重点的训练数据集,涵盖不同癌症类型,并记录真实世界临床研究工作流程中部署的经验教训22。
对肿瘤学家和患者而言,了解临床试验中的决策制定方式对验证和建立信任至关重要。尽管 ChatGPT-4 和其他大语言模型的影响仍处于早期阶段,但其用户友好性为利用大数据加速临床研究、同时让患者和临床医生密切参与过程提供了难得机遇。