综述:IR-GPT:优化介入放射学的人工智能基础模型

【字体: 时间:2025年03月27日 来源:CardioVascular and Interventional Radiology 2.8

编辑推荐:

  这篇综述聚焦于介入放射学(IR)领域的人工智能基础模型。探讨了 IR-GPT 模型的潜在设计、数据收集与标注、训练方法,分析了应用挑战与局限,为 AI 在 IR 的发展提供全面思路,对推动该领域技术进步意义重大。

  

一、引言

人工智能(AI)基础模型可通过对大量未标记数据(代码、文本、图像等)进行自监督训练来学习复杂信息。像生成式预训练变换器(GPT)这类基础模型,能基于多模态数据输入执行多样任务,涵盖多种语言、编码语言及数学表达式等。在医疗领域,GPT-3.5 在在线健康论坛对问题的回复质量和同理心方面超越了医生,一些大型基础模型在涉及医学影像数据(诊断放射学 - DR、皮肤病学、病理学)的任务中也展现出了能力。
然而,这些系统尚未针对介入放射科医生进行的图像引导微创操作相关应用专门设计。介入放射学高度依赖迭代成像,以及基于多模态数据的实时人为决策。若能使用定制的基础模型,为介入放射学术前、术中和术后任务提供实时支持,这些过程可能会得到优化。

二、介入放射学中的基础模型

传统 AI 模型往往缺乏医生所具备的医学领域知识和情境理解,在像介入放射学这样复杂的操作环境中更是如此。能够处理大量多模态数据、富有表现力且特定领域的基础模型,或许能解决介入放射学中混乱、不完善的 AI 生态系统问题。医生可以借此提出问题、验证解释并轻松应用见解。基础模型可能解决介入放射学中许多尚未满足的挑战,并在治疗建议、靶向药物递送和器械操作等领域辅助决策。
在介入放射学中部署基础模型的首要步骤,是找出介入放射学实践中那些能产生安全、可行影响的特定环节。本文旨在勾勒 IR-GPT 框架的潜在结构和设计,分析面临的挑战,并突出基础模型在介入放射学中的潜在应用。

三、过往研究工作

早期将 AI 应用于介入放射学的工作主要围绕卷积神经网络(CNN)展开,这是一种深度学习模型,利用卷积运算捕捉矩阵中相邻点之间的关系。该算法常通过有限数据集进行训练,以执行单模态图像的分割或二分类等任务。不过,也涌现出了一些独特方法,比如将 3D 概率深度学习系统与计算机辅助检测(CADe)和计算机辅助诊断(CADx)模块相结合用于肺癌检测,以及通过开发基于多参数 MRI 数据训练的 3D U-Net 和 AHNet 来检测前列腺癌。还有肝脏成像中的 CNN,以及用于前列腺癌格里森评分的两阶段级联 CNN 等创新成果,这些都专注于感兴趣区域的识别和分类。
尽管这些方法在介入放射学任务中看似有价值,但当前介入放射学 AI 范式存在局限。上述许多示例中,模型通常在小而缺乏多样性的数据集上,针对单个器官系统、使用单一模态训练以完成单一任务。要构建能支持临床医生进行标准介入放射学操作的软件,需考虑多种场景和人群特征,这可能需要成百上千个传统 AI 模型才能组成一个通用系统。从计算角度看,这种假设系统不切实际,还凸显了解释性方面的额外挑战。临床医生在操作过程中不仅要理解众多不同模型的输出,还会增加技术负担。目前介入放射学中关于基础模型的研究较少,主要集中在生成简单报告、患者同意书和患者教育等任务上,而非程序优化。因此,AI 在介入放射学中的应用仍较为零散。介入放射学中 AI 研究的主要类别如下:
  1. 机器人与增强现实在介入放射学中的应用:AI 已被集成到机器人和增强现实系统中,以提高涉及这些新方法的操作的准确性和效率。
  2. 血管成像与分析:开发了用于分析血管图像的 AI 应用,以预测深静脉血栓形成、大面积肺栓塞或动脉瘤破裂风险,这些任务对于介入放射学操作的规划、执行以及团队调动至关重要。
  3. 病变检测与分割:开发了 AI 算法,用于在微创介入放射学操作的成像数据中检测和分割病变,提高诊断准确性和操作规划水平,还开发了自动分割感兴趣器官或针道(如经椎弓根椎体入路)的 AI 模型。
  4. 介入放射学中的预测建模:AI 模型用于预测介入放射学操作后的患者结局、可能治疗不足的肿瘤,或与人工观察者计划不同的个性化治疗体积等因素。
  5. 使用 AI 进行介入放射学的培训与教育:AI 模型用于加强介入放射学相关教育,为学员提供模拟环境,为患者提供问答支持。
与过往示例不同,IR-GPT 可能具有更强的多模态性和交互性,支持医疗专业人员使用不同的数据输入组合完成一系列介入放射学特定任务。与大量依赖单模态输入、专注于像分割这样特定任务的小型专业 AI 模型相比,IR-GPT 可能为介入放射学实践的 AI 增强提供单一渠道。此外,与传统模型不同,研究表明基础模型可能具备少样本或零样本学习能力,能够解决与训练数据中不同的新问题。这种能力有助于在介入放射学这种快速变化的医疗环境中,对分布外输入保持稳健的性能。

四、数据收集

收集足够数量的数据是 AI 模型在医学领域,尤其是介入放射学中开发和应用的主要障碍。开发成功的介入放射学基础模型所需的数据,在注释、成本以及隐私 / 伦理方面都带来了巨大挑战。

4.1 基础模型的数据

包括大语言模型(LLMs)在内的 AI 基础模型近期取得成功的一个主要因素,是在大型数据集上进行自监督预训练以编码通用知识,然后可针对特定任务进行微调。这很好理解,就像在通过放射学资格考试前必须先学习英语基本原理一样。在医学领域,人们进行了大量尝试来收集可用于预训练基础模型的庞大数据集,例如 eICU 数据库、MIMIC/MIMICCXR、NC3 COVID 数据库和 MURA 等。这些数据集主要用于训练用于重症监护和诊断放射学的 AI 模型。在介入放射学中,操作在很大程度上依赖数据,但很少有人尝试收集适用于构建与操作任务相关的基础模型的多模态纵向数据库。本文建议开发包含介入放射学特定数据的图像 - 文本 - 音频数据集,对其进行结构化处理,以确保 AI 算法能够理解不同时间和空间的操作。这样的数据集可能会催生用于优化图像引导微创操作的定制基础模型 ——“IR-GPT”。

4.2 介入放射学中的大型数据集

为像 IR-GPT 这样的定制基础模型组装介入放射学数据集存在重大障碍。首先,需要大量病例来建立足以训练 IR-GPT 模型的数据集。然而,与所有医学专科相比,介入放射学的病例数量占比很小。建立庞大的病例库需要不同医疗系统之间的合作与数据共享,但由于机构 / 企业竞争和数据共享的法律限制,这很难实现。此外,介入放射学操作的规划、执行和报告缺乏一致性。
构建大型介入放射学数据集还存在其他结构性挑战。当前许多临床数据集缺乏数据多样性,通常偏向来自相对高收入地区的患者,这导致模型生成的输出可能存在偏差,对代表性不足的群体甚至可能是危险的。介入放射学数据集包括实时操作数据和电子健康记录(EHR)等上下文信息,这引入了包括种族、性别、设备质量和社会经济地位等可能的偏差。需要多样化的数据集来降低这些有害偏差的风险。在多样化数据上训练的基础模型将更好地理解患者的特定情况,可能有助于实现更公平、精确的介入放射学实践。然而,为实现这一目标,必须从具有不同技术生态系统的不同医疗环境中收集数据。
与其他医学专科相比,从介入放射学操作中收集复杂数据面临更多挑战。许多医疗系统缺乏持续收集和注释实时操作多模态数据所需的资金和基础设施。例如,操作图像需要相应的描述性文本或其他标签,没有这些关键信息,模型就无法计算误差并提高性能。与大多数诊断放射学模型不同,介入放射学的 AI 系统必须在操作的多个时间点进行评估。

4.3 通向 IR-GPT 的数据收集途径

一个由中央协调并提供资金的联盟可能是解决为 IR-GPT 构建数据集这一挑战的方案。例如,美国国立卫生研究院(NIH)的 “我们所有人” 计划旨在通过多机构合作建立一个平衡且具有代表性的基因组医学研究数据集。
类似的针对介入放射学 AI 的计划,特别是专注于基础模型开发的计划,可通过支持跨不同医疗环境的数据收集和共享基础设施,克服上述一些挑战。这有助于确保资源有限的医疗设施有资金从服务不足的社区收集数据。AI 研究人员、数据科学家和介入放射学临床科学家组成的跨学科团队可以开展多中心合作,为 IR-GPT 模型构建工具。此外,已经开始初步尝试收集众包数据和问题(带有注释 / 答案)来训练 IR-GPT。众包可确保 IR-GPT 不受单一团体 / 机构特定且可能狭窄的观点限制,因为一个操作通常有多种方法,且并非所有情况都涵盖在标准指南中。

五、数据注释

IR-GPT 的数据注释并非仅依赖图像 - 文本对,而是通过半结构化的 “程序叙述” 进行。医护人员用语音描述操作的关键步骤,并对决策 / 行动进行解释。可使用指南确保注释者之间有一定程度的标准化。这项工作可由介入放射学注释团队实时或回顾性完成,他们可以利用现有的多模态数据模拟操作。
操作的常规部分若没有音频,可标注为中性或延续过去状态,这能减少注释 IR-GPT 训练数据所需的时间和负担。护理团队或注释者每个操作可能只需记录几分钟的叙述。还可收集术前治疗决策(如 “肿瘤委员会”)的音频数据,整合病史、既往治疗、病理学、影像学、电子健康记录和实验室检查等信息。之前有人提议使用手术室(OR)的录制视频数据来开发涉及操作数据的 AI 模型,但音频数据侵入性更小、易于转录、大规模存储成本低,且易于匿名化以保护隐私。这些叙述还可用于医护人员术后记录笔记、回顾或汇报,以提高技能或培训学员。
为了将程序叙述数据用于训练 IR-GPT,专家临床医生可先整理出在介入放射学工作流程中经常相关的查询列表。在操作过程的每个关键步骤,使用大语言模型将叙述信息转换为模型要模仿的目标响应。通过提供用于初步训练的监督材料,这种注释方法确保模型具有介入放射学特定的知识库,这可能会简化后续涉及未标记回顾性数据和人工 AI 训练员的模型优化过程。

六、模型训练

目前 AI 在介入放射学中的应用可能需要使用多个单独的模型来支持一个操作,包括用于分诊、顺序器官分割、肿瘤分割、治疗体积分割以及用于靶向、监测、验证和随访的配准等任务的工具。本节提出训练 IR-GPT 模型以统一该生态系统的策略。

6.1 IR-GPT

为介入放射学应用定制的基础模型 “IR-GPT”,可能通过提供一个统一系统来应对当前挑战。该系统可从复杂多模态数据(无论输入结构如何)中学习,根据指令提示完成任务,并为专家提供清晰的输出供其参考。基于 Transformer 的模型基于特征组合之间关系的聚合表示来完成任务,因此对输入的大小、顺序或组成不变。IR-GPT 通过有效整合不同数据模态(如成像、文本、电子健康记录、音频),可促进 AI 工具在介入放射学环境(包括操作或其他图像引导环境)中的实际部署。现有的大语言模型在一些有限应用中已显示出潜力,例如在介入放射学操作前进行个性化患者教育。IR-GPT 可能实现更先进的功能。

6.2 IR-GPT 的训练方法

IR-GPT 的训练将基于由介入放射学护理团队或注释团队提供的、标注有 “程序叙述” 音频记录的大量多模态和多站点数据(如 “数据注释” 部分所述)。这将直接使用预先存在的大语言模型,根据报告和记录的叙述数据(带有时间配对图像的音频)生成指令提示(问题)和结果。

6.3 预训练

IR-GPT 的初始权重可从在大型(未标记)图像、文本和临床数据集上训练的现有多模态基础模型获取。从这一初始阶段学到的医学基础知识,通过捕捉不同亚专科可能普遍相关的一般模式、特征和关系,将有助于后续 IR-GPT 模型特定部分的训练。

6.4 监督学习

在操作序列的每个时间点(包括术前、术中和术后设置),可以将带有患者特定背景的问题形式的数据输入模型。然后 IR-GPT 模型会输出一个响应,并自动与由大语言模型构建的程序叙述数据进行比较。例如,对于 “根据以下背景信息 [病例],哪种设备、技术、方法、成像模态和视角最佳?” 这个问题,理想的响应可能是 “使用眼镜蛇导管和同轴微导管系统,搭配有角度的导丝,微导管在 48 度左前斜位(LAO)、头侧倾斜 8 度,探测器采用 3D 荧光透视融合 PET 数据进行引导”。可使用优化函数根据成本函数(评估与期望答案的相似度)调整模型权重。

6.5 人类反馈强化学习

在监督训练获取了初步的介入放射学特定知识后,可以利用过去操作的大量未标记回顾性数据,并借助介入放射学专业人员的见解来优化模型,这可能会扩展 IR-GPT 编码信息的广度和深度。在这里,类似于现有大语言模型的训练协议,可使用人类反馈强化学习(RLHF),根据人类训练员对模型每个步骤输出的排名来优化系统。过去的研究表明,RLHF 在提高模型性能方面是有效的,而且排名过程比完整的操作数据音频注释更高效。IR-GPT 模型的人类训练员团队可能包括分布广泛的医护人员(专家)、医学生和研究人员。

七、AI 在介入放射学中的部署

在介入放射学操作中,许多决策点若能得到定制基础模型的支持,可能会更合理。其影响领域可能包括根据已知解剖结构或血管分支点选择导管 - 导丝组合和复杂探测器角度;经过风险评估微调的 IR-GPT 模型可以量化气胸、出血或内漏等并发症的检测;模型可以预测最佳针道,以避免胸膜裂或动脉解剖结构;对于经动脉化疗栓塞(TACE)/ 经动脉放射性栓塞(TARE)或消融术,通过自动虚拟灌注和边缘检测来确定终点;大语言模型还能从成像数据中提取信息实现这一点。此外,凭借多模态能力,对心脏功能和电子健康记录历史参数的综合评估,可能实现急性肺栓塞的自动检测,并触发应急团队启动。其他过程,如肿瘤委员会,在基于事实的医疗记录、高级别证据指南和成像数据的基础 AI 模型指导下,可能会更具成本效益。最后,介入放射学专业人员无疑会通过不同的提示策略、数据输入或包装应用程序,在临床环境中发现新的有价值的用途。
IR-GPT 的各种应用场景,包括术前、术中和术后应用。在手术过程中,经过训练的 IR-GPT 模型可以快速清晰地告知临床医生手术工具的选择和使用、治疗药物的递送以及手术组件的结果,从而改善患者的治疗效果。

八、临床挑战与局限

过往研究表明,AI 模型可能存在源于训练数据的漏洞和偏差。为确保模型在不同资源环境(包括低收入和中等收入国家)中都能保持一致性能,必须从不同环境收集数据和音频注释。若使用机器翻译来确保与模型兼容,IR-GPT 还必须用不同语言的数据进行验证。另一个关键挑战是在整理大型介入放射学训练数据集时必须考虑的伦理和隐私问题,可能需要使用匿名化技术确保所有数据不可识别,避免程序叙述中出现无意中受保护的对话和其他敏感信息。
即使开发出 IR-GPT,其输出可能仍存在局限,给实际临床应用带来挑战。例如,类似图 3 中的回复可能不够详细,或者需要多轮交互才能获取必要信息。在介入放射学手术室中,与 AI 模型长时间交互很可能造成延误,这在快节奏的临床环境中极不实用,而基本对话的聊天机器人模型通常依赖多轮对话来提供准确回复。最后,尽管进行了众包和多站点努力,IR-GPT 模型仍可能对大多数介入放射学医护人员未使用的技术或产品存在偏见(例如由于罕见病例、资源限制或设备 / 供应商的差异)。

九、结论

未来实施特定于介入放射学的基础模型,对临床实践尤其是在介入放射学教育和专业知识领域具有重大潜在影响。本文提出了更全面的开发 AI 解决方案的途径,以解决这个动态且技术导向领域中现有的局限性。毫无疑问,这些以数据驱动决策支持为目的的先进 AI 技术(很可能以 IR-GPT 模型的形式)将塑造介入放射学的未来。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号