
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于内存计算(PIM)的医学图像处理算子优化:突破数据移动瓶颈的新范式
【字体: 大 中 小 】 时间:2025年06月11日 来源:Future Generation Computer Systems 6.2
编辑推荐:
针对医学图像处理(MIP)中数据移动导致的效率瓶颈,研究人员创新性地采用内存计算(PIM)技术,首次实现了体素计数、阈值分割、直方图计算、卷积和插值五种核心算法的PIM优化。实验表明,PIM在整数运算任务中较CPU提速最高达24×,较GPU提升3×,为CT/MRI等大尺度医学影像的实时处理提供了高效能解决方案。
医学影像技术的快速发展带来了海量数据处理的挑战。CT、MRI等设备生成的图像分辨率持续提升,而传统CPU/GPU架构受限于"内存墙"问题——数据在处理器与内存间的频繁搬运成为性能瓶颈。据估算,美国国家癌症研究所的影像数据库(IDC)已达67TB规模,常规处理方法难以满足临床实时性需求。现有加速方案如CPU多线程、GPU并行计算虽有一定效果,但均无法从根本上解决数据移动带来的能耗与时延问题。
在此背景下,Héctor Martínez团队创新性地将内存计算(PIM)技术引入医学图像处理领域。这种颠覆性的架构将计算单元嵌入内存芯片,通过近数据计算大幅降低数据搬运开销。研究选用UPMEM PIM架构——该平台在DDR4内存条中集成2560个450MHz处理单元(DPU),提供2.56TB/s的超高内存带宽。团队针对五种医学影像核心算法进行PIM适配:体素计数用于肿瘤体积测量,阈值分割辅助病灶勾画,直方图优化提升图像对比度,卷积运算实现降噪滤波,而插值算法则支持多模态影像配准。
关键技术方法包括:1) 基于UPMEM PIM硬件(20个DDR4-2400模块/160GB内存)构建实验平台;2) 采用合成与真实数据集(512×512至5965×5965像素)验证,覆盖UINT8/INT32/FP32三种数据类型;3) 设计SPMD并行模式,优化数据分块与线程同步策略;4) 通过算术运算重构(如用位移替代除法)提升效率;5) 对比CPU(Intel Xeon Silver 4110)与GPU(RTX 3060)基准性能。
3.1 体素计数
通过将图像分块分配至各DPU的MRAM存储体,采用12个任务线程(tasklet)并行统计。实验显示处理4096×4096×100的UINT8数据时,PIM较CPU提速6.2倍,关键是通过WRAM缓存避免DRAM频繁访问。
3.2 阈值分割
采用条件判断优化策略,但受限于输出图像需回传主机,双倍数据传输使UINT32处理效率与CPU持平。创新性地采用批处理模式可规避此瓶颈。
3.3 直方图计算
通过公式重构将除法转为位移操作:Bin_index=(d?bins)?DEPTH,使UINT8处理速度达CPU的23.95倍。该优化策略被证明在肿瘤异质性分析中极具价值。
3.4 卷积滤波
3×3卷积核处理中,PIM对UINT8数据展现6.46倍CPU加速比。但FP32因缺乏硬件浮点支持,性能反落后于GPU,揭示当前PIM在复杂运算的局限。
3.5 线性插值
双线性插值需要大量浮点计算,PIM模拟运算导致性能下降,突显未来架构需加强浮点单元设计。
这项发表于《Future Generation Computer Systems》的研究具有里程碑意义:首次证实PIM在医学图像处理的可行性,为突破"内存墙"提供了创新路径。特别在数据密集型场景如肿瘤体积测量(体素计数)和影像增强(直方图)中,PIM展现出革命性优势。尽管在浮点运算和复杂算法(如插值)上仍需改进,但工作为下一代智能影像设备研发指明方向——结合HB-PNM等新兴存储技术,未来PIM有望成为医学AI推理的高效能效平台。作者团队建议后续研究可结合Roofline模型进一步优化,并探索与ITK、3D Slicer等医学影像平台的深度集成。
生物通微信公众号
知名企业招聘