综述:放射学中的智能体系统:原理、机遇、隐私风险、监管与可持续性关切

《Diagnostic and Interventional Imaging》:Agentic systems in radiology: Principles, opportunities, privacy risks, regulation, and sustainability concerns

【字体: 时间:2025年10月26日 来源:Diagnostic and Interventional Imaging 8.1

编辑推荐:

  这篇综述深入探讨了智能体系统(Agentic Systems)在放射学领域的应用前景与挑战。文章系统阐述了以大型语言模型(LLM)为核心的智能体系统的基本原理、架构(如ReAct框架)及其在医学影像分析、报告生成和放射组学(Radiomics)流水线自动化等方面的潜力。同时,文章 critically 评估了其临床整合面临的隐私风险(如数据泄露)、网络安全威胁(如提示注入攻击)、监管考量(如EU AI Act)和可持续性(如碳排放CO2)等关键问题,为未来安全、负责任地发展放射学AI指明了方向。

  
引言
Transformer架构和注意力机制的引入,推动了能够根据前述输入预测序列中下一个词的高精度、高效模型的快速发展。这些模型被称为大型语言模型(LLM),已成为一个高度活跃的研究领域。在放射学等医学领域,LLM正被探索用于自动化报告起草、流程优化和结构化解读支持等任务。尽管LLM在生成上下文连贯的文本方面表现出色,但传统的LLM因其无法自主与外部系统交互、检索数据或执行代码而受到限制,这制约了其在真实世界临床和研究工作流程中的作用。为了应对这些局限性,智能体系统(Agentic Systems)作为一种新范式应运而生。通过将LLM嵌入到支持推理、规划和行动的框架中,智能体系统将LLM的能力扩展到与用户、工具和数据源的动态交互。
LLM:智能体系统的基石
LLM是基于Transformer的神经网络,通过在海量异构文本语料库上以自监督方式优化数十亿参数来学习生成和解读人类语言。其发展遵循了“缩放定律”的观察,即简单地扩大模型规模和数据量会带来损失和下游准确性的系统性、幂律改进。在预训练期间,模型学习预测下一个词元(Token)。Transformer架构通过用多头自注意力(Multi-head Self-attention)取代循环,实现了这一点,该机制可以并行评估整个序列中的成对依赖关系。词元化(Tokenization)桥接了原始文本和模型输入。像WordPiece、SentencePiece或特定领域变体这样的子词词元器,将罕见的生物医学表达(如“肝脾肿大”)分割成具有形态学意义的单元,减少了词汇表外错误并保留了语义内容。自注意力的二次内存占用将模型性能与上下文窗口(Context Window)的长度联系起来。检索增强生成(Retrieval-augmented Generation, RAG)和密集段落检索通过允许模型动态获取外部文档并将其编织到提示(Prompt)中,来缓解固定窗口的限制,从而在不扩展核心网络的情况下扩展其有效知识库。由于原始目标仅灌输统计相关性,需要额外的对齐(Alignment)步骤来近似临床推理和专业语调。来自人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)、指令微调(Instruction Tuning)和基于规则的“宪法AI”(Constitutional AI)框架训练模型遵循放射学特定的指令,拒绝不安全的请求,并优先考虑简洁、临床可用的输出。
提示工程
提示工程(Prompt Engineering)指的是系统性地调整输入到LLM的文本,以优化其在特定任务上的性能。它涉及策略性地设计和优化指令,以引导LLM生成准确、上下文合适的响应。这些技术范围从简单的查询表述到涉及输出约束和参数调整的复杂方法。几种提示技术已被开发出来,从简单到复杂逐步演进。零样本提示(Zero-shot Prompting)不需要在提示本身中提供先验示例,完全依赖模型的预训练知识来理解和执行任务。少样本提示(Few-shot Prompting)通过在提示中添加少量期望的输入-输出格式示例,利用LLM的上下文学习(In-context Learning)能力。思维链提示(Chain-of-thought Prompting, CoT)通过结构化推理指导进一步增强提示,明确引导模型进行逐步推理过程,鼓励在最终结论之前进行中间推理步骤。引导生成(Guided Generation)是一种先进技术,它不是设计提示,而是根据预定义的结构、词汇表或语法来约束模型的词元生成过程。对于像医学这样知识密集的领域,RAG通过将模型连接到外部数据库、文献或机构指南,提供了关键能力。
智能体系统的基础
智能体(Agents)是被设计用于通过自然语言与用户交互来执行复杂任务的系统。其核心包括两个主要组成部分:大脑(通常是负责推理和通信的LLM)和身体(指智能体可用于与环境交互的一组工具)。这些工具可能包括函数(例如,用Python或其他语言编写)、API或任何可调用资源。此类系统行为和有效性的一个关键要素在于提示框架(Prompting Framework),即一组结构化指令,指导智能体如何进行推理、规划和行动。一种广泛使用的技术是ReAct框架(Reason and Act)。在此设置中,智能体通过三个步骤的循环迭代地解决问题:思考(Think)、行动(Act)、观察(Observe)。智能体系统最重要的组成部分是系统提示(System Prompt)。这是在初始化时提供给LLM的一段文本,包含定义智能体应如何操作的持久指令。智能体系统根据其与工具交互的方式分为两大类:工具调用智能体(Tool-calling Agents)和代码智能体(Code Agents)。工具调用智能体通过结构化的JSON定义与管理工具的交互。代码智能体则通过生成和执行Python代码片段与工具交互。智能体系统的另一个组成部分是其记忆(Memory),它在与用户的整个交互过程中维护上下文方面起着重要作用。最常用的形式是短期记忆(Short-term Memory),也称为工作记忆(Working Memory)。长期记忆(Long-term Memory)指的是智能体在不同会话中保留和访问信息的能力。
使用智能体系统相关的隐私问题
将LLM及随后的智能体系统整合到放射学中,带来了重大的隐私和网络安全风险,这是由模型与敏感患者数据的交互所驱动的。一个主要关切是在训练和推理过程中数据泄露的可能性。由于其规模和训练方法,LLM可能无意中记忆并复述敏感患者信息,即使这些信息并非明确意图保留。这种现象也被称为意外记忆(Unintended Memorization)。除了训练,推理时的风险也需要仔细关注。从网络安全的角度来看,将LLM集成到放射学工作流程中还需要防御模型投毒(Model Poisoning)、提示注入(Prompt Injection)和后门攻击(Backdoor Attacks)。所有这些风险在多智能体系统(Multi-agent Systems)中被进一步放大,其中多个AI智能体跨网络协作和共享信息。
多智能体系统在放射学中的临床应用
尽管前景广阔,但AI智能体通常尚未在批准用于临床的医疗设备中可用。作为医疗设备的AI(AI as a Medical Device, AIaMD)通常出于监管原因,专注于狭窄、特定的任务,具有更确定性的输出。然而,利用智能体LLM的全部潜力可能需要整合来自多个来源的患者数据来执行感兴趣的行动,因为影像检查结果只是医疗保健中发生的诊断和患者管理过程的一个组成部分(尽管在许多情况下至关重要)。尽管如此,可以预期智能体AIaMD将首先以更有限的角色引入医学影像,要么改进当前医疗设备中非智能体AI的性能,要么仅略微扩展此类系统的范围。在这种背景下,可以将智能体LLM的临床应用分为封闭式任务(Closed-ended Tasks)和开放式任务(Open-ended Tasks)。开放式任务更明显地与放射学工作流程相关,包括信息摘要、数据提取和重构(主要是文本形式),以及医学问题的交互式回答。真正的、能够访问多模态患者信息的AI智能体可用于优化和自动化检查安排,包括对已知病理的随访,并在更大范围内提供益处,而不仅仅是提高人工报告的效率和准确性。
多智能体系统在放射学研究中的应用
在放射学研究中,智能体系统可以自动化传统上需要高级编码或数据分析技能的过程。近年来出现了能够处理三维医学影像数据的基于智能体的系统。VoxelPrompt是最早将语言与视觉模型结合以执行多种类型图像的分割和病灶表征的智能体系统之一。此后,各种多智能体系统被开发出来,以促进影像研究,这些系统可以处理图像分析的整个过程,包括图像预处理、分割、定量放射组学数据提取和模型构建。mAIstro代表了这些系统的一个原型,它可以通过使用既定库编写Python代码并使用自然语言与用户交互,使研究人员能够自动化数据分析和机器学习模型构建。虽然这些应用展示了智能体系统在放射学研究中的多功能性,但仍需要大规模研究来确定此类系统是否能够真正提高诊断准确性、工作流程效率和患者结局。
智能体AI的治理
根据Gartner的预测,到2028年,近三分之一的企业应用程序将包含智能体AI,而2024年这一比例还不到1%。智能体AI的相对自主性和处理复杂任务的先进能力,使其与更简单的AI工具区分开来。虽然这些特性使智能体AI成为人类参与者完成医疗保健等领域复杂任务的宝贵伙伴,但它们也引入了围绕自主性、透明度、可解释性、偏见和问责制的新伦理和治理关切。一个基本的治理问题涉及当智能体AI出错或无意中造成伤害时的问责制。智能体AI也可能容易受到网络攻击和数据泄露。虽然智能体AI在欧盟AI法案的最新更新中没有被特别提及或直接讨论,但其中大量提到了自主性和人类监督。AI智能体可以通过自主分析多模态数据来做出关于复杂任务的决策。这需要提高中间决策步骤如何决定的透明度,并注意确保多模态数据的偏见不会在最终产品中累积。
智能体系统的可持续性
将LLM和智能体AI系统整合到各个部门,包括医学等专业领域,需要从环境、经济和社会维度全面审视其可持续性。显著的能源需求、碳排放(能源消耗的直接后果)和LLM的耗水量构成了巨大的环境挑战。这一挑战因智能体系统而加剧,后者可能会自主执行大量迭代任务。虽然训练基础模型是能源密集型的,但推理阶段(即模型的实际使用)构成了主导且持续的环境成本。来自推理的累积排放量可能超过训练阶段的排放量约1000倍。此外,支持这些模型的数据中心由于其冷却需求而具有巨大的水足迹(Water Footprint)。缓解策略包括采用节能架构,例如更小的、经过微调的模型,以及量化(Quantization,即降低权重的比特宽度)。将数据中心过渡到可再生能源至关重要。此外,鼓励较短回复的提示工程可以将能源使用减少25-60%。
LLM的开发和运营涉及巨大的经济成本。训练一个模型可能耗资数百万美元,而API的使用仍然昂贵。尽管存在这些费用,LLM可以通过简化数据提取和行政任务来提高医疗保健等部门的效率并降低成本。一种具有成本效益的策略是查询串联(Query Concatenation),通过将多个查询分组到单个请求中,可以显著降低成本。对于可以自主运行的智能体系统,低效任务循环导致运行成本失控的潜在风险是一个关键问题。杰文斯悖论(Jevons Paradox)也作为一个警告:效率的提高可能导致更高的总体消耗而非节约。
在社会层面,LLM和智能体系统日益增强的自主性引发了关于伦理设计、偏见和问责制的关切。这些模型可能继承并延续其训练数据中存在的社会偏见。在医学领域,LLM可能遵守有害或不适当请求的潜力构成了重大风险,而智能体的自主性则引入了当它们造成伤害或犯关键错误时的复杂问责问题。其他关切包括工作替代和批判性思维技能的侵蚀。确保公平获取这些强大技术也是一个关键的社会挑战。多智能体系统引入了进一步的复杂性,因为LLM智能体往往难以在没有特定干预的情况下实现可持续合作,并且可能无法分析其行为的长期后果。为了解决这些问题,强有力的治理、透明的问责制和明确的伦理监督至关重要。通过仔细的数据管理和安全微调来减轻偏见至关重要,同样重要的是强调人机协作,以确保在关键应用中进行人类监督。
结论
显然,智能体系统通过执行从图像解读和工作流程编排到研究数据分析的复杂任务,在重塑放射学方面具有相当大的前景。正如我们的综述所概述的,它们的成功部署将取决于谨慎应对风险,例如保护敏感患者信息和安全漏洞,以及这些日益资源密集型模型的环境可持续性。另一个挑战是建立可持续的经济模型,因为训练、微调和使用作为智能体系统核心推理引擎的LLM成本可能非常巨大。采用更小的、特定领域的LLM作为推理骨干可能有助于降低这些成本,但仍需要大规模研究来阐明长期的成本效益平衡。与不断发展的监管框架保持一致对于确保安全性、透明度和问责制也至关重要。此外,成功的采用将取决于人为因素,特别是放射科医生的信任、适当的培训和无缝的工作流程整合,没有这些,即使先进的系统也可能仅停留在概念验证阶段。当负责任地设计和实施时,智能体系统可以通过提高效率、一致性和决策支持来增强放射科医生的临床实践,同时通过自动化数据管理、分析和假设生成来加速放射学研究的科学发现。最终,其影响将由创新和密切监督之间的平衡来决定,在保障以患者为中心、合乎伦理且可持续的放射护理核心价值的同时,利用分布式智能的优势。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号