编辑推荐:
嗓音障碍(VD)常与声带结构病理(VFSP)相关,喉成像评估受限于稀缺及不平衡数据集。本研究探索 DDPM 生成合成图像增强 VFSP 分类的可行性,发现模型经增强数据集训练后收敛良好,为 VD 筛查与诊断提供新方向。
在人类的交流世界里,嗓音如同灵动的音符,是情感传递与信息表达的核心纽带。然而,当声带这一精密的发声器官出现结构异常时,美妙的音符可能会变成失调的杂音。声带结构病理(Vocal Fold Structural Pathology, VFSP)如结节、囊肿、息肉等,会直接引发嗓音障碍(Voice Disorders, VD),影响全球约 17% 人群的生活质量,尤其对教师、歌手等职业人群造成显著困扰。临床中,喉成像技术是评估 VFSP 的关键手段,但稀缺且不平衡的数据集、依赖专家经验的诊断模式,严重制约了人工智能(Artificial Intelligence, AI)在自动化诊断领域的应用潜力。如何突破数据瓶颈,让 AI 更精准地 “看懂” 声带病变,成为摆在研究者面前的重要课题。
为攻克这一难题,美国鲍灵格林州立大学(Bowling Green State University)的研究团队开展了一项开创性研究。他们将目光投向新兴的生成式人工智能(Generative Artificial Intelligence, GenAI)技术,尤其是去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPM),探索其生成逼真合成图像以增强 VFSP 分类的可行性。这项研究成果发表在《European Archives of Oto-Rhino-Laryngology》,为嗓音医学与 AI 的交叉研究开辟了新路径。
研究者采用了以下关键技术方法:首先从 607 例喉镜视频中提取 404 幅图像,经两位言语语言病理学(Speech-Language Pathology, SLP)专家标注构建原始数据集,涵盖 7 种 VFSP 类型及正常声带。随后利用 DDPM 在 GPU 集群上训练生成合成图像,经专家筛选后获得 4180 幅高质量图像。采用 VGG16 和 ResNet50 两种卷积神经网络(Convolutional Neural Network, CNN)架构,分别在原始数据集、合成数据集及混合数据集上进行二元分类(正常 / 病变)和多分类(7 种病理类型)训练与评估,通过准确率、F1 分数、Fréchet Inception Distance(FID)等指标衡量模型性能。
研究结果
合成图像的逼真性与数据增强效果
DDPM 成功生成了与真实喉镜图像高度相似的合成样本,FID 分数显示结节(104.70)、囊肿(112.00)等多数病理类型的合成图像与原始图像具有较高视觉一致性。通过合成数据扩增,原始数据的不平衡性显著改善,如肉芽肿(Granuloma)类样本从 4 例增至 541 例,为模型训练提供了更均衡的数据集。
模型训练与分类性能
- 基线表现:仅使用原始数据集时,预训练 VGG16 模型未能收敛,验证准确率持续低下,凸显原始数据稀缺性对模型的制约。
- 二元分类:当训练集包含 50% 原始数据与合成数据时,预训练 ResNet50 取得最佳性能,准确率达 0.73±0.03,F1 分数 0.70±0.03,敏感性 0.73±0.03,表明模型能有效区分正常与病变声带。
- 多分类表现:混合 50% 原始数据的训练策略同样显著提升多分类性能,预训练 VGG16 对肉芽肿、角化病(Keratosis)的分类准确率达 100%,ResNet50 对结节、囊肿的识别准确率超 90%,显示合成数据增强了模型对细分病理类型的辨别能力。
模型收敛与泛化能力
对比实验表明,仅用合成数据训练时模型性能较低,而加入少量原始数据(10%)即可提升分类指标,混合 50% 原始数据时达到最优。这说明合成数据与真实数据的合理融合是提升模型泛化能力的关键,预训练模型结合合成数据增强可加速收敛并提高稳定性。
研究结论与意义
本研究首次证实 DDPM 生成的合成图像可有效增强 VFSP 的 AI 分类性能。通过数据增强,模型不仅解决了原始数据集的稀缺与不平衡问题,还在二元和多分类任务中实现了可靠的诊断性能。这一成果为嗓音障碍的自动化筛查与诊断提供了新工具,尤其在医疗资源匮乏地区,AI 辅助诊断系统有望弥补专家短缺的现状,提升 VFSP 的早期检出率。
值得注意的是,研究中也发现部分病理类型(如声带沟 Sulcus Vocalis)的合成图像与真实样本 FID 分数较高,提示复杂解剖结构的模拟仍需优化。未来若能结合更高质量的喉镜数据集与多模态成像技术,进一步拓展模型对病理亚型的识别能力,DDPM 有望在临床实践中发挥更大价值。这项研究不仅为声带疾病的精准医疗提供了技术支撑,更展现了生成式 AI 在医学影像领域的巨大应用潜力,为跨学科研究照亮了前行的道路。