OsiriXGPT:基于生成式AI的影像报告工作流创新平台——无缝集成多模态大模型的临床实践探索

《Journal of Imaging Informatics in Medicine》:OsiriXGPT: An Innovative AI Co-pilot Plug-In for Seamless Deployment of Generative AI Models in Scan-to-Scan Reporting Workflows

【字体: 时间:2025年10月18日 来源:Journal of Imaging Informatics in Medicine

编辑推荐:

  本研究针对生成式AI在放射学中缺乏与医学影像查看器无缝集成的问题,开发了开源API插件OsiriXgrpc,实现FDA认证的DICOM查看器OsiriX与AI工具的实时交互。通过构建AI助手OsiriXGPT,研究人员成功整合了大型语言模型(LLM)、视觉语言模型(VLM)和分割模型(SAM),在全身弥散加权成像(WB-DWI)中验证了其可行性。该平台显著降低了AI部署门槛,为资源有限环境提供了轻量级解决方案,有望推动多模态生物医学AI的临床转化。

  
在当今医疗影像数据爆炸式增长的时代,放射科医生正面临着前所未有的挑战。患者数量持续增加、放射科医生短缺、扫描设备容量扩大、癌症治疗手段进步等因素共同导致了影像工作量的急剧上升。英国国家医疗服务体系(NHS)的最新数据显示,2025年7月仅有69.2%的癌症患者在紧急转诊后62天内获得治疗,远低于85%的目标值。这种诊断延迟已经成为医疗系统的重要瓶颈。
生成式人工智能(GenAI)的出现为缓解这一困境带来了希望。这类模型展现出分析多模态医学数据的卓越能力,有望帮助放射科医生优化工作流程、减轻工作负担。然而,尽管OpenAI、Google、Meta等高科技公司开发了先进的GenAI模型,这些技术在认证医学影像查看器中的转化应用仍受到法规和技术限制的双重阻碍。
目前存在的核心问题在于缺乏能够将GenAI模型动态部署到认证医学影像查看器中的开源解决方案。用户往往被迫将数据上传到基于网络的界面来生成AI驱动的响应,这显著增加了安全性和GDPR(通用数据保护条例)违规的风险。虽然一些公司已经将特定任务的AI模型直接部署到医院系统中,但这些解决方案通常需要单独采购,导致效率低下,并增加了网络安全风险。
为了突破这一技术壁垒,来自英国癌症研究所和皇家马斯登NHS基金会信托的研究团队开展了一项创新性研究。他们开发了OsiriXgrpc这一开源API插件,并在此基础上构建了OsiriXGPT——一个创新的AI助手插件,专门用于在扫描到扫描的报告工作流中无缝部署生成式AI模型。这项研究发表在《Journal of Imaging Informatics in Medicine》期刊上,为医学影像与人工智能的深度融合开辟了新途径。
研究人员采用了几项关键技术方法:首先开发了基于gRPC(Google远程过程调用)架构的OsiriXgrpc插件,实现OsiriX与Python环境的高速通信;其次整合了多模态AI模型,包括OpenAI的GPT-4o模型用于文本和图像分析,Meta的Segment Anything Model(SAM)用于图像分割;此外建立了严格的数据隐私保护机制,通过OCR(光学字符识别)技术自动识别和编辑患者信息;研究使用了14例晚期前列腺癌患者的全身MRI(WB-MRI)数据集进行验证,所有数据均经过完全匿名化处理。
OsiriXgrpc插件架构设计
研究团队设计的OsiriXgrpc插件采用了先进的gRPC架构,这是一个开源的高性能远程过程调用框架。该架构使用语言中立的协议缓冲区来序列化消息,实现了跨系统和编程语言的无缝服务器-客户端通信。由于医学图像解析本质上是高数据量问题,研究团队选择gRPC作为OsiriXgrpc设计的RPC框架。OsiriXgrpc API从活动的OsiriX查看器检索像素数据和ROI(感兴趣区域)对象,将它们序列化为协议缓冲区消息,并在平均6毫秒内将它们流式传输到Python客户端。
AI助手界面功能实现
OsiriXGPT界面包含三个主要部分:输入对话区允许用户通过键盘输入文本提示;用户控制区包含五个用于与各种GenAI模型交互的按钮;输出窗口显示AI生成的响应。五个控制按钮分别实现不同功能:麦克风按钮支持语音输入转换为文本;文本查询按钮将文本输入发送到LLM生成基于文本的响应;图像查询按钮支持与VLM交互,发送文本提示和相关图像;图像分割和量化按钮触发SAM生成分割掩码;摘要按钮将用户与助手之间的对话导出为PDF报告。
多模态模型集成测试
研究人员进行了五项测试来验证系统功能。测试1验证了与OpenAI的连接性,LLM成功生成了ONCO-RADS评分系统指南的摘要,语音识别功能实现了约5%的词错误率。测试2评估了VLM在识别解剖结构方面的性能,模型在T2加权HASTE图像上识别膀胱、肾脏、肝脏等结构的总体准确率达到86.5%。测试3验证了SAM模型的分割能力,成功在4秒内生成肝脏和脾脏的分割轮廓。
临床案例应用验证
在测试4中,研究人员使用b900弥散加权成像和T2加权HASTE图像,要求VLM分析疑似腹膜后病变。AI生成的输出正确识别了病变内细胞密度增加,提示潜在恶性可能,并给出了ONCO-RADS评分3分。测试5模拟了完整的放射科医生-AI对话工作流,生成了包含临床发现、测量数据和ONCO-RADS评分的结构化报告。
专用分割模型开发
研究团队还专门针对全身弥散加权成像(WB-DWI)开发了定制化的SAM模型(WB-DWI SAM)。在对12例患者(6例晚期前列腺癌,6例多发性骨髓瘤)的评估中,该模型显示出良好的性能。Bland-Altman分析显示,手动定义ROI与WB-DWI SAM得出的ADC(表观弥散系数)值具有高度一致性,组内相关系数(ICC)大于0.9,变异系数(CoV)在可接受范围内(APC为4.05%,骨髓瘤为5.67%)。
数据安全保护机制
为确保患者隐私安全,研究团队实施了严格的"守门人"流程。该流程在存储原始数据的同一工作站上本地运行,管理所有与OpenAI API的通信。在DICOM到JPEG的转换过程中,视觉对比度和用户定义的ROI被保留,而所有可能包含受保护健康信息(PHI)的元数据字段都被剥离。通过Presidio Image Redactor Python库实现的OCR编辑步骤,在测试中成功识别和编辑了90%的包含合成患者信息的切片。
本研究的主要意义在于为生成式AI在放射学中的临床应用提供了可行的技术框架。OsiriXgrpc的灵活性允许开发者使用gRPC支持的任何编程语言实现客户端消息,大大降低了AI技术的应用门槛。由于OsiriX本身已获得CE标志和FDA批准,将OsiriXgrpc认证为平台可以减轻在医疗保健中部署AI驱动模型的监管负担。
该平台的潜在应用场景十分广泛。对于大型医疗系统,它可以作为现有PACS(图片存档和通信系统)的有效补充;对于小型私立放射学诊所,它提供了轻量级的AI集成方案;对于中低收入国家(LMICs)的医疗系统,OsiriXgrpc可以显著降低财务和技术障碍,促进AI辅助放射学的全球普及。考虑到全球约70%的癌症死亡发生在中低收入国家,这种可访问的AI驱动成像技术具有重要的公共卫生意义。
研究人员也坦诚指出了研究的局限性。首先,虽然该工具旨在改进放射学工作流程,但尚未与传统报告系统进行头对头比较。未来工作需要量化报告时间、减少的交互步骤数量以及认知负荷。其次,没有使用经过验证的指标(如系统可用性量表、NASA-TLX)进行可用性研究。此外,没有向用户展示模型置信度分数或不确定性估计,这些功能的集成对于促进AI工具在放射学实践中的信任和安全采用至关重要。
尽管存在这些限制,OsiriXgrpc和OsiriXGPT为代表的创新平台为医学影像与人工智能的融合提供了重要示范。通过统一这些技术的测试和验证环境,这些平台有助于弥合AI研究与临床实施之间的差距。虽然最初是为研究PACS环境设计的,但从这些工具中获得的见解可以加速基础多模态生物医学AI模型向临床PACS系统的整合,最终支持真实世界的应用 adoption。
这项研究的最终价值不仅在于技术实现本身,更在于它展示了一种可持续发展的AI医疗应用模式。通过开源策略和标准化接口设计,OsiriXgrpc为整个医学影像社区提供了可扩展、可验证的技术基础架构。随着生成式AI技术的不断进步,这种开放、集成的平台架构有望成为未来智能医疗系统的重要组成要素,推动放射学从传统的"人眼诊断"向"人机协同"的新范式转变。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号