
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Vision Transformers与Perceiver IO的多疾病医学影像诊断AI框架:突破传统深度学习在神经退行性疾病、皮肤病和肺病检测中的局限性
【字体: 大 中 小 】 时间:2025年07月18日 来源:Computational Biology and Chemistry 2.6
编辑推荐:
为解决传统深度学习模型在医学影像分类中泛化性差、假阳性率高及解剖特征重叠区分困难等问题,研究人员开发了结合Vision Transformers(ViT)和Perceiver IO的混合框架,在脑卒中(准确率99%)、阿尔茨海默病(F1-score 0.99)、皮肤癣菌病(召回率97%)和肺癌(精度97%)等六类疾病诊断中实现突破性性能,其开发的AI聊天助手可实时分析多模态影像,为临床提供可解释的自动化诊断支持。
医学影像诊断领域长期面临传统卷积神经网络(CNN)的三大瓶颈:局部感受野限制全局特征捕捉、跨模态数据兼容性差,以及面对脑卒中与阿尔茨海默病MRI相似病灶时的误判风险。更棘手的是,皮肤镜图像中黑色素瘤与癣菌病的纹理差异、胸部X光中肺炎与肺癌的影像重叠,常常让现有AI系统"力不从心"。这些挑战直接影响了早期诊断的准确率,每年导致数百万患者错过黄金治疗窗口。
研究人员创新性地将自然语言处理领域的Vision Transformers(ViT)与多模态处理架构Perceiver IO相结合,构建了首个能同时处理神经系统(脑卒中、阿尔茨海默病)、皮肤科(癣菌病、黑色素瘤)和呼吸系统(肺炎、肺癌)疾病的统一诊断框架。该研究通过Kaggle获取的25,000张均衡分布影像数据集,采用分层抽样划分为70%训练集、15%验证集和15%测试集。关键技术包括:ViT的16×16图像分块自注意力机制(公式1:z0=[xclass;xp1E;...]+Epos)、Perceiver IO的潜在空间交叉注意力计算(公式8:z=σ(QKT/√d)V),以及针对不同模态的预处理流程——MRI采用N4ITK偏置场校正,皮肤镜图像应用CLAHE对比度增强,肺部CT使用-600HU窗宽优化。
在神经疾病检测中,模型对脑卒中CT和阿尔茨海默病MRI的分类达到99.75%准确率(图3),仅2例假阳性。其独特优势在于通过ViT的长程依赖捕捉能力,将海马体萎缩与脑梗死病灶的时空特征关联分析,解决了传统CNN对弥漫性病变敏感度不足的问题。皮肤疾病分类方面(图4),模型在HAM10000和皮肤疾病数据集上实现95.6% F1-score,其自适应注意力机制能准确聚焦于癣菌病的环形鳞屑与黑色素瘤的色素网络异常。对于肺部疾病(图5),框架通过融合X光与CT多尺度特征,在区分细菌性/病毒性肺炎和肺结节良恶性时达到98.8%召回率,显著优于传统CheXNet模型(表10)。
研究最具临床应用价值的创新是部署了支持多模态上传的AI聊天助手。医生可通过该界面实时获取带热力图的可视化诊断建议,例如在脑部MRI中突出显示β-淀粉样蛋白沉积区域,或在皮肤镜图像中标定不规则色素网。消融实验(表2)证实ViT+PIO组合比单一模型性能提升2.28%,而噪声鲁棒性测试(表1)显示即使添加σ=0.05高斯噪声,准确率仅下降2.81%。
这项发表于《Computational Biology and Chemistry》的研究,其突破性在于首次验证了Transformer架构在跨器官疾病诊断中的通用性。Perceiver IO的模态无关特性使其可在标准笔记本电脑(Intel i7 CPU)运行,为资源有限地区提供三甲医院级的诊断支持。未来工作需解决训练数据中肤色多样性不足(如HAM10000以白种人为主)和CT扫描参数差异带来的域偏移问题。该框架已开源预处理代码,其模块化设计允许集成心电图、基因组等异构数据,为构建真正的多模态医疗AI基础模型指明方向。
生物通微信公众号
知名企业招聘