将视觉-语言模型(Vision-Language Models, VLMs)集成于DICOM浏览器的技术架构

《European Radiology Experimental》：Technical architecture for integrating vision-language models with DICOM viewers

【字体：大中小】 时间：2026年07月03日 来源：European Radiology Experimental 4.7

编辑推荐：

　　将视觉-语言模型（Vision-Language Models, VLMs）集成至临床放射科工作流，需导出能保留诊断查看上下文（包括成像平面、层位、窗宽/窗位、厚层(Slab)参数及叠加层(Overlays)）的二维图像。现有方法通常依赖临时截图和外部上传，会

将视觉-语言模型（Vision-Language Models, VLMs）集成至临床放射科工作流，需导出能保留诊断查看上下文（包括成像平面、层位、窗宽/窗位、厚层(Slab)参数及叠加层(Overlays)）的二维图像。现有方法通常依赖临时截图和外部上传，会丢弃上述上下文、降低可重现性，并通过任务切换造成工作流摩擦。研究人员描述了一种放射科影像浏览器架构，通过将显式 viewer state 序列化为可回放的描述符(Descriptor)，使模型交互完全保留在诊断环境内。请求的视图使用共享内存中的体素(Voxel)数据经离屏(Offscreen)重渲染生成，可在不打断交互式阅片的前提下，产生可重复、忠实还原上下文的证据图像。用户界面采用分栏工作区(Split Workspace)，结合用于影像审阅的诊断网格(Diagnostic Grid)与用于证据暂存及模型交互的内嵌对话侧边栏(Chat Sidebar)。捕获操作生成批量序列化视图状态并由离屏渲染器执行；生成的图像帧在提交给模型前供用户审核。在1000×1000像素输出分辨率受控条件下，基准测试显示完美可重现性：相同序列化状态的重复捕获产生像素完全一致(Pixel-identical)的图像，50帧零哈希(Hash)不匹配。捕获延迟中位数为每帧4.49~16.69 ms（依视图类型而异），使用高效图像容器(High-Efficiency Image Container, HEIC)编码时单帧中位输出大小为27.9 kB。结果表明所提架构支持可重现、低延迟、存储高效的多层位(Multislice)及多序列(Multiseries)证据组装，可在交互速度下实现VLMs与诊断放射科工作流的无缝集成。

《European Radiology Experimental》刊载论文解读：将视觉-语言模型(VLM)集成于DICOM浏览器的技术架构研究

研究背景与问题提出

传统放射科中计算机辅助工具多为"窄域"(Narrow)计算机视觉工具，仅能执行单一刚性任务（如病灶勾画或体积测量），无法回答开放式临床问题或适应复杂语境。新兴视觉-语言模型(VLM, Vision-Language Model)可接受影像与自然语言提示同步输入，具备充当广义临床助理的潜力。然而VLM临床有效应用须基于放射科医生实际审阅的同一视觉证据。当前主要障碍在于：VLM接口通常接受标准二维图像（如JPEG），而放射科诊断依赖容积性(Volumetric)、交互式的DICOM(Digital Imaging and Communications in Medicine)数据，"有临床意义的视图"不仅由像素构成，还包含成像平面与层位选择、窗宽(Window)与窗位(Level, WW/WL)、厚层(Slab)类型与厚度、相机几何参数及可能编码阅片意图的标注叠加层(Overlay)。现有两种VLM交互方式均需脱离诊断浏览器——纯文本提示丢失细微视觉信息；手动截图/导出关键图像则使容积交互性检查退化为静态图像，丢失层位、平面、WW/WL、厚层配置、方位及标注等关键信息，导致提供给模型的证据不完整、难重现、难审计。因此本研究旨在设计一种以浏览器为中心的集成方案，将容积上下文捕获作为一等工作流(First-class Workflow)，模型交互保留在浏览器内，避免脱离环境的导出上传步骤。

研究人员提出了一种基于显式视图状态(Viewing State)序列化与离屏(Offscreen)重渲染的DICOM浏览器架构，使VLM交互嵌入诊断环境。基准测试验证了该架构在可重现性、捕获延迟及存储效率上的表现，证明可在交互速度下支持VLM与放射科诊断工作流无缝集成，具有重要临床应用价值。

主要关键技术方法

研究人员基于UIKit构建跨iOS/macOS平台的分栏工作区(Split Workspace)应用，含诊断网格(Diagnostic Grid)与助手侧边栏(Assistant Sidebar)。核心方法为：①视图状态序列化——将系列(Series)、显示模式、平面意图(Plane Intent)、层位选择、WW/WL、厚层设置、相机参数及叠加层策略编码为可回放的描述符(Descriptor)，支持单视图序列化及批量状态序列（采样层位或正交平面组）生成；②离屏重渲染——独立离屏Viewer实例复用共享内存体素(Shared In-memory Voxel Data)执行序列化状态并重渲染，隔离交互浏览与捕获，每帧关联可回放状态以供日志与审计；③证据暂存——侧边栏支持增量媒体累积(Media Accumulation)，逐帧渐进显示缩略图允许并行起草问题，仅当用户发送消息时提交图像与提示；④图像编码——GPU支持的渲染目标导出像素缓冲，可选叠加层合成后压缩为JPEG或HEIC(High-Efficiency Image Container)；⑤基准评估——使用来自UPenn-GBM队列(The Cancer Imaging Archive, TCIA)的轴位MRI序列（512×384矩阵，192层，层厚1 mm，像素间距0.488×0.488 mm），在M2 MacBook Air(macOS 15.5, VTK 9.3, OpenGL ES 3.0)上运行确定性测试（10个2D状态各重复捕获5次，共50帧，禁用叠加层，SHA-256哈希比对）与混合性能测试（含2D及MPR轴/冠/矢状面帧共39帧，启用叠加层，记录捕获耗时、JPEG/HEIC编码耗时及输出大小）。

研究结果

证据导出类型(Evidence Export Types)

研究人员实现四种对应用户临床意图的证据类型：当前视图捕获、采样层位栈(Sampled Slice Stacks)、正交MPR(Multiplanar Reconstruction, 多平面重建)捕获及带标注书签(Annotated Bookmark)捕获。各导出帧均关联可回放视图状态（系列、模式、层位/平面意图、WW/WL、厚层设置、叠加层策略），支持后续重现与审计提供给模型的精确证据。

证据暂存工作流(Evidence Staging Workflow)

侧边栏暴露与上述类型对应的捕获操作。批量捕获生成多帧图像暂存于侧边栏供用户筛选，界面支持媒体累积——立即显示占位符并在帧渲染完成后替换为缩略图，允许用户在证据组装期间起草问题。批量执行按队列状态推进且不阻塞交互浏览，证据仅随用户发送消息传输。此外支持从导航列表选择序列算法构造视图状态进行离屏捕获（"先暂存，后提问"）。

可确定性(Determinism)

确定性基准（10个2D状态各重复5次，50帧，1000×1000像素，禁用叠加层）中，重复捕获相同序列化状态产生的像素缓冲经SHA-256哈希比对无最终哈希不匹配（0/50帧），每状态汇总均为零不匹配。证实在受控基准条件（单设备、热缓存、单MRI序列、单次运行）下具确定性输出。

捕获性能(Capture Performance)

混合性能基准（39帧日志记录，1000×1000像素输出，启用叠加层）：2D帧与轴位MPR中位捕获时间分别为6.19 ms[四分位距IQR 4.69–9.73]与4.49 ms[IQR 3.97–10.73]；冠状与矢状MPR稍长但分布更集中，中位数分别为16.55 ms与16.69 ms。冠状与矢状MPR耗时较长符合正交重切片(Orthogonal Reslicing)计算开销——受试序列为轴位采集（平面内矩阵512×384，192层），轴位MPR可读连续平面内数据，冠状与矢状需跨非连续内存位置插值。

编码权衡(Encoding Tradeoffs)

编码器质量设定0.7时，HEIC编码文件更小但耗时长于JPEG：HEIC中位输出27.9 kB，JPEG为79.4 kB（约缩小2.8倍）；HEIC中位编码耗时28.43 ms，JPEG为3.66 ms（约慢7.8倍）。HEIC适合多帧带宽受限场景或下游模型接口有请求大小限制时；JPEG更快编码适合时效敏感的单帧交互。

讨论与结论总结

本架构通过将视图状态显式序列化并由离屏Viewer实例重渲染保留平面意图、层位、WW/WL、厚层配置及叠加层策略的二维证据，使VLM交互内嵌于诊断浏览器，避免将容积阅片降维为临时截图或外部导出。分栏设计与证据暂存支持不打断诊断网格的持续阅片。该设计回应了多模态AI在放射科需可靠对齐影像内容与临床查看上下文的需求，以及将模型交互嵌入临床环境（而非分离下游步骤）的价值。放射科诊断推理依赖层批空间连续性、多平面上下文及多序列间关联，本系统通过序列化状态与协调多帧捕获保留了更丰富的诊断意图表征，且支持可重现可审计交互。

基准显示在固定视图状态与输出分辨率单次运行中重复回放产生像素完全一致导出（零哈希不匹配），2D视图与轴位MPR捕获延迟为毫秒级，冠状与矢状MPR因正交插值稍长；HEIC较JPEG显著缩小文件但编码耗时增加，二者可依场景取舍。每导出帧对应可记录、可审计、可审查的显式回放状态，可选叠加层烧入(Burn-in)可保留标注与测量，但须管控以防受保护健康信息(PHI, Protected Health Information)泄露。

研究人员指出未来方向含意图驱动捕获模板(Intent-driven Capture Templates，将常见临床问题配标准化捕获配置与提示框架，演进为机构可标准化验证的版本化"上下文包(Context Bundles)"）及双向交互（模型返回结构化输出如候选ROI时用同序列化机制回显至浏览器作为可选叠加层，支持在常规诊断上下文中验证与解释）。局限性包括：基准为单设备热缓存单MRI序列单次运行，须跨模态/数据集/设备/冷缓存或网络环境验证；共享内存体素缓存同时打开多大量容积数据集（多期相CT或多序列MRI）时内存占用大，需缓存淘汰或显式内存预算；还需在实际临床阅片条件下评估对放射科医生效率、可靠性、安全性及信任度的影响。

结论翻译：

本研究描述了一种使视觉-语言模型(VLM)交互可在放射影像浏览器内完成且最小程度干扰工作流的架构，避免了将容积性解读简化为临时截图或外部导出—上传步骤。其核心机制是对查看状态进行显式序列化，使离屏浏览器实例能在保留临床相关上下文（包括平面意图、层位选择、窗宽/窗位、厚层配置及叠加层策略）的前提下重渲染可供模型使用的二维证据。专用助手侧边栏支持证据暂存与渐进缩略图聚合，同时保持诊断网格不被中断。该架构解决了放射科多模态人工智能研究中指出的鸿沟——即模型交互期间图像内容与其临床查看上下文须可靠对齐，且模型交互应嵌入临床环境而非作为分离下游步骤。通过将模型交互视为诊断查看过程的延伸（而非独立下游操作）并支持跨相关查看上下文的协调多帧捕获，系统保留了更丰富的诊断意图表征，同时实现可重现、可审计的模型交互。基准证实固定查看状态和输出分辨率下重复回放产生像素完全一致的导出，捕获延迟为毫秒级（冠状与矢状MPR稍长），HEIC编码较JPEG显著减小输出尺寸但编码耗时更长，可依临床场景权衡选用。各导出帧对应可记录审计的显式可回放查看状态；可选叠加层烧入可保留临床标注但须防范PHI暴露。未来可发展意图驱动捕获模板及双向交互（模型结果以序列化状态回显至浏览器）。

热点排行