
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于概率相似性保持的域适应分布差异缩减方法研究
【字体: 大 中 小 】 时间:2025年06月25日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
本研究针对域适应(Domain Adaptation, DA)中因目标域标签噪声导致条件概率分布计算失准的问题,提出通过概率相似性矩阵提取目标域原型(prototypes),结合样本群组相关性分析,构建跨域共同分布函数。该方法在Office-31/Office-Home/ImageCLEF-DA数据集上显著提升分类准确率,为深度域适应中噪声标签鲁棒性处理提供了新思路。
在人工智能技术快速发展的今天,迁移学习(Transfer Learning)已成为解决数据稀缺问题的关键手段。其中,域适应(Domain Adaptation, DA)作为迁移学习的重要分支,致力于缓解源域(Source Domain)与目标域(Target Domain)间的分布差异。然而,现有方法面临两大核心挑战:一是传统方法忽视特征向量的差异化权重,二是目标域伪标签(Pseudo-label)的噪声会污染条件概率分布(Conditional Probability Distribution)计算。这些问题导致跨域对齐效果受限,制约了模型在医疗影像分析、自动驾驶等关键领域的应用。
针对上述问题,来自伊斯法罕科技城的研究团队在《Engineering Applications of Artificial Intelligence》发表创新研究。该工作提出概率相似性保持框架,通过构建跨域样本的相似性矩阵(Similarity Matrix),将目标域数据表示为特征向量的加权组合,从而提取抗噪声的原型。实验表明,该方法在Office-31等标准数据集上超越现有技术,为深度域适应提供了新的理论工具和实践范式。
关键技术包括:1) 基于概率距离构建源域-目标域样本相似性矩阵;2) 通过加权特征组合提取目标域原型;3) 采用共同分布函数对齐跨域条件概率;4) 在Office-31/Office-Home/ImageCLEF-DA三个视觉数据集进行验证。
Related works
研究回顾了深度与非深度域适应方法,指出当前基于条件分布(Conditional Distribution)的方法虽优于边际分布(Marginal Distribution)对齐,但仍受样本权重分配不均和群组相关性忽视的限制。
Proposed method
创新性提出概率相似性保持框架:首先通过核函数计算样本间相似度,构建反映类归属概率的矩阵;其次将目标域原型表示为特征向量的凸组合,权重由相似度矩阵决定;最后约束两域特征服从相同分布形式。该方法有效抑制了标签噪声在MMD(Maximum Mean Discrepancy)计算中的传播。
Experimental results
在Amazon→Webcam等跨域任务中,所提方法平均准确率提升3.5-6.2%。可视化分析显示,原型提取使目标域特征簇更紧凑,与源域类中心对齐更精确。
Discussion
对比实验证实,直接使用目标域原始特征会导致条件分布偏移,而原型提取策略使AUC提升12.7%。消融实验表明相似性矩阵对噪声标签的鲁棒性贡献率达68%。
Conclusion
该研究开创性地将概率相似性保持与原型学习结合,通过数学证明相似度矩阵的Lipschitz连续性保证算法收敛性。其价值在于:1) 为噪声标签环境下的域适应提供新范式;2) 提出的原型提取机制可扩展至半监督学习;3) 开源代码促进工业级应用落地。这项工作推动了可解释域适应理论的发展,为医疗跨中心数据融合等场景提供关键技术支撑。
生物通微信公众号
知名企业招聘