
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于域适应与迁移学习的变分自编码器-最大均值差异模型在多站点神经影像数据自闭症诊断分类中的应用研究
【字体: 大 中 小 】 时间:2025年09月12日 来源:Frontiers in Neuroinformatics 2.5
编辑推荐:
本综述系统探讨了利用变分自编码器(VAE)结合最大均值差异(MMD)的深度学习模型,通过域适应(Domain Adaptation)、迁移学习(Transfer Learning)及数据协调(Harmonization)技术,解决多站点功能磁共振成像(fMRI)数据中非神经变异对自闭症谱系障碍(ASD)诊断分类的干扰问题。研究显著提升了目标域(ABIDE-II)的分类准确率,并验证了融合健康对照组数据(HBN、AOMIC)的迁移学习策略及统计协调方法(ComBat)的协同增效作用,为多中心神经影像数据融合与疾病生物标志物挖掘提供了重要方法论支持。
引言
神经影像技术已被广泛应用于识别自闭症谱系障碍(ASD)患者大脑结构和功能的改变,特别是皮质功能连接(FC)的异常。随着机器学习技术的发展,深度学习模型在ASD诊断分类中展现出超越传统方法的性能。然而,深度学习模型需要大量样本以避免过拟合,而大型公共数据库如自闭症脑影像数据交换(ABIDE)虽提供了丰富数据,但其数据来自不同站点、采用不同扫描设备和协议,引入了显著的非神经变异性。这种变异性掩盖了组间真实的神经差异,导致基于机器学习的诊断分类性能下降。
域适应技术通过利用源域学到的知识,使源域和目标域的数据分布尽可能相似,从而改善目标域的分类性能。本研究旨在开发一种结合变分自编码器和最大均值差异(VAE-MMD)的深度学习模型,用于ASD的三分类诊断(自闭症、阿斯伯格综合征和典型发育对照组),并以ABIDE-II作为目标域,ABIDE-I作为源域,验证域适应的有效性。
方法
本研究采用多站点fMRI数据,包括ABIDE-I(15个站点,998名受试者)、ABIDE-II(11个站点,623名受试者),以及来自健康脑网络(HBN)和阿姆斯特丹开放MRI集合(AOMIC)的健康对照组数据。所有数据经过相同的预处理流程,包括时间层校正、头动校正、空间标准化、 nuisance信号回归和频带滤波。功能连接特征采用cc200图谱提取,得到19,900个特征向量。
模型构建基于半监督学习的变分自编码器框架,通过引入最大均值差异(MMD)正则化项来惩罚源域和目标域潜在概率分布之间的距离,确保学习到的特征具有域不变性。模型包括生成模型和推断模型,通过优化分类损失和域混淆损失,实现域适应。此外,本研究还比较了统计协调方法ComBat与深度学习方法的性能,并探讨了迁移学习(TL)通过引入额外健康对照组数据(HBN和AOMIC)对分类性能的提升作用。
模型训练采用五折交叉验证,严格分离训练、验证和测试集以避免数据泄露。超参数如学习率、批次大小和正则化系数通过验证集优化。模型性能通过准确率和F1-score评估,并通过t-SNE可视化潜在特征空间的分布变化。
结果
域适应效果通过t-SNE可视化显示,训练前源域和目标域中诊断组别分离不明显,而训练后源域中组别分离清晰,且该分离可转移至目标域。引入MMD损失后,模型在目标域测试集的分类准确率从65.08%提升至69.05%。进一步加入ComBat协调后,准确率提高至70.63%。当结合迁移学习(引入HBN和AOMIC健康对照组数据)后,准确率进一步提升至73.81%,而组合所有策略(VAE+MMD+ComBat+TL)可获得75.4%的最高准确率。
特征识别分析发现,与分类相关的重要功能连接主要涉及跨网络和跨脑叶连接,包括额中叶回与颞下回、BA6与颞中叶回的前颞叶网络,眶额叶回与罗兰岛盖的前岛叶网络,以及右前中央回与右颞极的颞顶叶网络。这些连接的减弱在ASD和阿斯伯格患者中显著,与既往研究报道的社交、行为和沟通功能缺陷相关。
讨论
本研究证实了域适应和迁移学习在多站点fMRI数据ASD分类中的有效性。VAE-MMD模型能够有效对齐源域和目标域的潜在特征分布,减少非神经变异性对分类性能的干扰。ComBat协调作为一种统计方法,在减少站点效应方面表现出色,但其与深度学习模型的结合可进一步提升性能。迁移学习通过引入更多健康对照组数据,增强了模型的泛化能力,表明利用大量公开健康对照数据有望构建更具泛化能力的诊断模型。
尽管三分类任务(特别是区分阿斯伯格综合征与自闭症)具有挑战性,本研究仍取得了优于现有方法的性能。未来工作可进一步优化特征解释算法、探索更大规模数据集(如UK Biobank)的潜力,并解决类别不平衡和模型泛化性等问题。
结论
本研究提出的VAE-MMD域适应框架,结合迁移学习和统计协调技术,显著提升了多站点fMRI数据中ASD诊断分类的准确率。该方法不仅克服了多中心数据异质性带来的挑战,还为利用公开健康影像数据优化疾病分类模型提供了可行路径,对推动神经影像生物标志物发现和临床辅助诊断应用具有重要意义。
生物通微信公众号
知名企业招聘