生成式AI在生物医学视频合成中的突破:扩散模型与生成对抗网络的临床转化前景
《ARTIFICIAL INTELLIGENCE REVIEW》:Generative AI for biomedical video synthesis: a review
【字体:
大
中
小
】
时间:2025年10月24日
来源:ARTIFICIAL INTELLIGENCE REVIEW 13.9
编辑推荐:
本刊推荐研究人员针对医疗视频数据稀缺、标注成本高及隐私问题,开展基于扩散模型(DM)和生成对抗网络(GAN)的生物医学视频合成研究。通过系统分析DM(如DDPM、SDE)和GAN(如cGAN、StyleGAN)在超声心动图、内窥镜等视频生成的性能,证实DM在时间一致性和图像保真度上优于GAN,FVD、SSIM等指标显著提升。该研究为罕见病理模拟、手术培训及个性化医疗提供了高质量合成数据解决方案,推动AI在临床环境中的可靠应用。
在医疗人工智能领域,高质量医学视频对于疾病早期检测、监测和治疗至关重要,例如胃癌、心肌病、肺栓塞和阿尔茨海默病的诊断均依赖于内窥镜、超声心动图、计算机断层扫描(CT)和磁共振成像(MRI)等技术。然而,获取大量多样化且标注完善的医学视频数据集面临诸多挑战:伦理问题(如患者隐私)、数据稀缺(尤其罕见病症)、图像质量低以及标注成本高昂。这些限制严重阻碍了深度学习模型在疾病诊断和治疗规划中的高效应用。
生成式人工智能模型,特别是扩散模型(Diffusion Models, DM)和生成对抗网络(Generative Adversarial Networks, GAN),已成为解决这些问题的变革性工具。尽管在二维医学图像生成方面取得显著进展,但复杂医学视频的合成仍是一个未充分探索的领域。现有文献中关于合成医学视频的研究较少,突显了这一新兴研究领域的重大空白。本文旨在回顾使用扩散模型和生成对抗网络进行生物医学视频合成的相关文献,整合所有相关研究,突出不同的公开数据集、性能评估指标以及相关的挑战,并提出一些潜在的缓解策略。
研究发现,关键挑战如保持时间一致性、解决计算效率低下以及克服数据稀缺性是相互关联的问题。 collectively addressing these issues is essential for developing accurate and robust generative models tailored for medical video synthesis. 本综述提出的潜在缓解策略可作为未来研究的基础资源,旨在增强生成式AI模型在临床环境中的可靠性和适用性。这些进展有望通过生成逼真、高质量的医学视频数据,显著影响互联健康和个性化医疗领域,从而增强诊断算法的训练、提高AI辅助视频解读的鲁棒性、模拟疾病进展或回归以进行更精确的治疗规划,并通过丰富的纵向数据分析支持个性化医疗技术的发展。
为开展本研究,作者采用了几个关键技术方法。文献检索基于PRISMA框架,在多个学术数据库(如PubMed、Google Scholar、IEEE Xplore等)中进行,使用“medical video”、“biomedical video”与“video generation”、“GAN”、“Diffusion model”等术语组合,最终从462项研究中筛选出相关文献。模型评估采用了多种性能指标,包括Fréchet Video Distance (FVD)、Structural Similarity Index Measure (SSIM)、Peak Signal-to-Noise Ratio (PSNR)、Learned Perceptual Image Patch Similarity (LPIPS)等,以量化生成视频的质量和真实性。所使用的数据集包括公开可用的EchoNet-Dynamic(超声心动图)、CAMUS(心脏超声)、Cholec80(腹腔镜手术视频)等,这些数据集提供了多样化的医学视频资源,用于模型训练和测试。此外,研究还采用了条件生成方法,如基于文本提示或临床参数(如左心室射血分数LVEF)的引导,以增强生成过程的可控性和临床相关性。
3 Generative models used for medical video synthesis
3.1 Diffusion models(DMs) in medical video synthesis
扩散模型因其在样本生成中的出色模型覆盖率和质量而受到重视,尽管其计算需求较大。在医学视频合成中,DM通过两个阶段操作:前向扩散阶段逐步向输入数据添加高斯噪声,反向扩散阶段则通过去噪重建原始数据。DM可分为变分视角(如去噪扩散概率模型DDPM)和得分视角(如噪声条件得分网络NCSN和随机微分方程SDE)。
Foundational work: 视频扩散模型(VDM)和掩码条件视频扩散(MCVD)等研究将扩散技术扩展到视频生成任务,通过整合时间结构来共同建模视频数据的空间和时间方面。这些基础研究表明,迭代去噪方法可以产生更稳定的训练、更高的样本保真度和改进的时间一致性,与传统的基于GAN的方法相比,生成研究向基于扩散的架构显著转变。
Types of diffusion models: DDPM通过马尔可夫链定义前向过程,在每个步骤逐步添加高斯噪声生成一系列噪声样本,反向过程则通过优化变分边界来学习实际数据分布。NCSN旨在计算扰动数据分布在不同噪声水平下的对数密度函数的导数,而SDE则整合了DDPM和NCSN的特性,提供了更广泛的框架。
Literature review: DMs: 在医学视频合成中,DM被证明能够生成高质量的视频序列。例如,Reynaud et al. (2023)提出了级联扩散模型(CDM),从单一图像和临床参数(如LVEF)生成逼真的视频序列,使用时间感知层和3D卷积来捕获时间依赖性。Van Phi et al. (2024)利用DDPM和语义图谱生成超声心动图视频,通过3D UNet和空间自适应归一化(SPADE)增强解剖准确性。Yu et al. (2024)引入可解释和可控运动(ECM)曲线方法,通过运动曲线引导生成心脏视频,改善心脏动态捕捉。Nguyen et al. (2024)开发了无需训练的条件扩散模型,从单一分割图谱生成超声心动图,减少了数据依赖。Chen et al. (2024a)提出了潜在动态扩散模型(LDDM),从静态图像生成超声视频,通过两阶段框架增强数据多样性。在手术视频生成中,Li et al. (2024a)开发了Endora,一种基于潜在扩散模型和视频变换器的内窥镜视频生成框架,整合了2D基础模型DINO进行特征提取。Wang et al. (2024)提出了MedSora,通过时空Mamba模块和光学流表示对齐提高时间一致性和计算效率。Chen et al. (2024)引入了SurgSora,一种运动可控框架,通过双语义注入器(DSI)和解耦流映射器(DFM)从单帧和用户可控运动提示生成手术视频。
3.2 Generative adversarial networks(GANs) in medical video synthesis
GAN由生成器(G)和判别器(D)组成,通过对抗训练生成逼真数据。在医学视频合成中,GAN学习生成符合真实数据分布的视频帧,而判别器则区分真实和生成帧。目标函数基于对抗游戏,旨在达到纳什均衡。
Foundational work: Vondrick et al. (2016)首次尝试使用时空生成器从未标注视频数据学习场景动态,随后TGAN和MoCoGAN分别通过两流架构和运动-内容分解改进时间一致性。这些方法展示了GAN生成动态内容的能力,但也揭示了训练不稳定和时间依赖建模的复杂性。
Type of GANs: 视频GAN通常采用四种策略:2DCNN与RNN结合处理时间序列、3DCNN处理时间维度、渐进增长GAN(PG-GAN)从粗到细生成、双流卷积网络分解时空组件。条件GAN(cGAN)、StyleGAN和深度人工双架构生成网络(D'ARTAGNAN)是医学视频合成中常用的架构。
Literature review: GANs: GAN在医学视频合成中的应用相对有限,但已显示出潜力。Liang et al. (2022)提出弱监督模型,通过关键点检测器和两分支解码器生成高保真超声视频,解耦内容和纹理信息。Zhou et al. (2023)开发了OnUVS框架,通过在线特征解耦和Vision Transformer(ViT)鉴别器生成高保真超声视频。Reynaud et al. (2022)利用D'ARTAGNAN生成具有不同LVEF的超声视频,通过双因果网络和GAN方法改变治疗变量。Fan et al. (2022)实现了基于条件GAN的视频到视频(vid2vid)框架,将锥束计算机断层扫描(CBCT)图像转换为CT图像。Vukadinovic et al. (2023)提出GANcMRI,使用StyleGAN生成心脏MRI视频,通过潜在空间提示进行生理调整。
3.3 Comparative analysis of GANs and DMs
DM在生成医学视频合成方面显示出更 promising 的结果,因其概率性质能够建模复杂分布并捕获时空结构。GAN在时间一致性方面存在挑战,且训练不稳定,而DM提供更好的多样性和可控性。然而,DM计算成本高,训练速度慢,而GAN在单次前向传递中生成输出,计算效率更高。两者在生成长视频和高分辨率视频方面均面临挑战,需要平衡质量与效率。
4 Clinical importance of generative models and performance evaluation metrics
生成模型在医学视频合成中的临床重要性体现在多个方面:解决罕见病理建模问题、提供无限数量的独特图像用于教育和培训、保护患者隐私以及缓解数据稀缺问题。性能评估指标包括FVD、FID、LPIPS、PSNR、MAE、RMSE、SSIM、NCC和R2分数,这些指标从分布相似性、感知质量、强度水平、结构一致性和预测准确性等多方面评估生成视频的质量。
5 General challenges, limitations and mitigation strategies
挑战包括对真实数据和临床参数的依赖、计算资源需求、时间一致性和图像质量问题、数据集限制和泛化能力、控制和可解释性、训练稳定性和模式崩溃以及平衡质量与效率。缓解策略包括采用轻量级模型架构、维度缩减技术、混合精度训练、模型优化(如剪枝和蒸馏)、数据增强、迁移学习和领域适应、多源数据集整合以及潜在空间操纵和辅助分类器使用。这些策略旨在提高模型泛化、减少计算负担并确保临床准确性。
6 Clinical applications and ethical implications
6.1 Real-world clinical applications
生成式AI在医学视频合成中的实际应用已通过量化改进得到验证。例如,Lee et al. (2022)基于GAN的脑CT分诊流程缩短了急诊周转时间,Fried et al. (2024)部署的手术智能平台提高了手术安全性并减少了操作时间,Zhao et al. (2025)提出的GenDSA模型减少了辐射暴露和检测成本。
6.2 Ethical and legal implications
伦理挑战涉及偏见、公平性和问责制。生成模型可能 perpetuating 与人口统计差异相关的偏见,需要通过数据审计、公平意识机器学习技术和平衡数据增强来缓解。监管合规要求遵守HIPAA和GDPR标准,通过匿名化、安全数据处理和差分隐私方法实现。伦理AI框架应遵循WHO和IEEE的指南,强调可解释性、互操作性和问责制。
6.3 Integration to the theoretical frameworks
技术接受模型(TAM)和创新扩散(DOI)理论为生成式AI在临床领域的采用提供了概念基础。感知有用性和易用性影响用户接受度,而相对优势、兼容性、复杂性、可试性和可观察性则决定扩散速度。生成式AI提供明显的相对优势,但可能因复杂性和缺乏标准化而受阻。
6.4 Implications for businesses and policymakers
对医疗技术组织和医疗保健提供者而言,投资模块化AI平台、使用生成模型进行培训以及自动化摘要和注释可以改善工作流程。政策制定者应发布标准化验证框架、提供研究资助和报销激励,并强制要求隐私保护和多样化训练数据集,以促进安全采用。
7 Conclusion and future directions
生成式AI在生物医学视频合成中表现出巨大潜力,但领域仍面临标注数据集依赖、高计算需求、时间一致性难题、有限可控性和泛化能力差等限制。未来研究应扩大应用范围到代表性不足的成像模态、开发计算高效架构、建立标准化基准、增强可解释性并利用隐私保护技术(如联邦学习)。通过针对性创新解决当前限制,将支持生成模型在真实世界临床工作流程中的安全有效集成。
7.1 Review limitations
本综述主要为叙述性,旨在定性综合现有文献发现,而非系统量化模型性能。公开数据集的有限可用性和评估协议的变化限制了直接统计比较和荟萃分析。此外,综述未广泛涵盖临床验证或真实世界实施,这是当前文献中的显著空白。
7.2 Potential future research
未来研究应优先考虑扩散模型(如HeartBeat用于超声心动图或SurgSora用于手术视频合成),使用公开数据集(如EchoNet-Dynamic、CAMUS或CholecT50/80),并避免使用无时间建模的GAN或缺乏临床背景的数据集。应用包括AI生成的诊断视频预测疾病进展、手术合成视频用于教育以及AI驱动的医疗动画用于健康意识传播。整合Sora等文本到视频生成模型到医疗应用以及探索基于得分的扩散模型和GAN与DM的混合方法是 promising 的方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号