综述:通过深度对抗模型进行合成数据增强以加强结核病CT影像分析
《Indian Journal of Tuberculosis》:Enhancing tuberculosis CT imaging analysis through synthetic data augmentation via deep adversarial models
【字体:
大
中
小
】
时间:2025年10月19日
来源:Indian Journal of Tuberculosis CS2.8
编辑推荐:
本综述探讨了在资源有限环境下,如何利用深度对抗模型(如DCGAN和CycleGAN)生成合成CT图像数据,以解决结核病(TB)影像分析中数据稀缺和类别不平衡的挑战。研究采用Hugging Face多模态结核病数据集,对CT图像和病灶区域进行全尺度特征提取,并通过训练生成对抗网络(GANs)合成模拟结核病灶形态的逼真纹理/颗粒CT图像。评估显示,在弗雷歇起始距离(FID)、起始分数(IS)、结构相似性指数(SSIM)、分割准确率、戴斯系数(Dice)以及分类精确度和召回率等指标上,合成数据显著提升了图像保真度和诊断性能,增强了模型鲁棒性和泛化能力。
结核病(TB)仍然是全球发病率和死亡率的重要负担,早期准确诊断对于疾病控制至关重要1,2。虽然胸部X光成像已广泛用于筛查和计算机辅助诊断,但胸部计算机断层扫描(CT)在检测肺部病变方面更为敏感3。然而,标记CT数据的缺乏阻碍了算法的广泛开发4。近年来,生成对抗网络(GANs)等深度学习技术的成功,使得合成数据生成成为克服类别不平衡和小数据集问题的有效手段5,6。本研究旨在探索基于GAN的合成数据增强,作为提高结核病CT影像分析中机器学习性能的一种方法。
在肺结核病例中,结核病仍然是一个重大的公共卫生问题,因为其影像学特征可能模仿其他肺部疾病,使得快速准确诊断变得更加困难1,3,9,15。最近,利用深度学习和图像分析自动检测结核病和分割病灶的创新方法,受益于卷积神经网络和数据增强技术的显著进步,特别是在胸部X光片(CXR)和CT影像上。
研究方法与材料包括:从公开可用的数据集中获取四个匿名胸部CT切片,进行灰度转换、强度归一化和中心裁剪以实现标准化。为了获得用于改进U-Net分割和自定义卷积神经网络(CNN)严重程度评估的合成数据,我们使用深度卷积生成对抗网络(DCGAN)生成了100个假CT切片。每个数据集以相同的随机种子划分为训练/验证/测试集。性能通过弗雷歇起始距离(FID)、起始分数(IS)、结构相似性指数(SSIM)、分割准确率、戴斯系数(Dice Coefficient)以及分类精确度和召回率等指标进行衡量。
DCGAN模型生成的合成数据弗雷歇起始距离(FID)为48.7,起始分数(IS)为2.4,结构相似性指数(SSIM)为0.71,表明数据具有中等保真度和多样性;添加合成图像导致分割准确率达到88.5%,戴斯系数为0.80,这两项指标均超过了仅使用真实数据训练的模型。该模型在分类任务中实现了0.84的精确度、0.81的召回率,其精确度-召回率曲线下面积(AUC)也达到了类似的0.87。
本研究提出的分割和分类模型的性能与近期用于结核病检测的深度学习方法(包括胸部X光和CT模式)进行了基准比较。尽管先进的神经网络(如DenseNet和集成CNN)在应用于大型数据集的胸部X光模型时获得了高AUC和戴斯分数1,4,5,6,10,11,但我们在CT切片上应用U-Net进行分割所对应的戴斯系数为0.80,未能达到某些最先进方法的水平,但在数据有限的情况下显示了竞争力。
本研究揭示了深度对抗合成CT数据增强可以有效提高结核病(TB)病灶分割和分类指标,即使在数据集较小的情况下也是如此,但并未表现出更显著的临床意义(例如提高戴斯系数和分类精确度)。与仅使用真实数据的经典基线方法相比,GAN合成以及现代经典方法显示出大于1的提升。
我们注意到除了主要指标之外的优势:可扩展的生成能力、适用于新队列的适应性流程以及减轻标注负担。临床接受度通过严格将合成图像用于训练、专家对分层样本的审查以及清晰的来源标签来界定。局限性包括数据集规模小、过拟合风险以及中等真实感指标;我们建议进行多中心验证和外部测试。未来的工作包括风格迁移和多模态增强,例如结合CT影像与其他数据。
我们的结果表明,深度对抗模型,特别是基于DCGAN的数据增强,在数据可用性低的情况下,在结核病CT影像的病灶分割和分级方面表现最佳。定量结果通过表格形式展示,表明使用合成数据在分割准确率和戴斯系数方面均有改善。生成的图像与真实病灶特征分布更密切相关,这有助于提高模型的泛化能力。
作者申明本研究符合伦理标准。未进行直接的患者干预,仅使用了来自批准数据库的匿名数据。遵循了所有适用的机构和国际关于研究完整性和数据保密性的指南。
作者确认没有使用人工智能工具来生成或协助撰写手稿。所有内容均由作者自行制作和验证。
作者声明不存在任何已知的竞争性财务利益或个人关系,这些利益或关系可能影响本报告所涉及的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号