
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于未知样本构建与动态阈值估计的开集域自适应方法研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Neurocomputing 5.5
编辑推荐:
针对开集域自适应(OSDA)中未知类识别与阈值设定的挑战,研究人员提出了一种融合未知样本构建与动态阈值估计(UCDTE)的三阶段方法。该方法通过特征融合构造伪未知样本,结合动态阈值对抗网络实现域间分布对齐,在Digits、Office-31等数据集上验证了其优越性能,为医学图像分割、scRNA-seq分类等跨域识别任务提供了新思路。
在人工智能蓬勃发展的今天,域自适应(Domain Adaptation)技术正成为解决跨域知识迁移难题的关键钥匙。然而现实世界往往比实验室复杂得多——当目标域存在源域从未见过的"未知类"时,传统方法就会像拿着旧地图的探险家,在陌生领地寸步难行。这就是开集域自适应(Open Set Domain Adaptation, OSDA)要攻克的核心难题:既要准确识别已知的"老朋友",又要敏锐发现潜在的"新面孔"。
现有方法大多采用固定阈值来区分已知/未知类,就像用统一标尺测量千差万别的样本,难免产生误判。更棘手的是,源域完全没有未知类样本,导致模型像盲人摸象,难以建立有效的决策边界。湖州大学的研究团队在《Neurocomputing》发表的这项研究,创新性地提出了未知构建与动态阈值估计(UCDTE)方法,犹如为模型配备了自适应显微镜,能动态调整每个样本的判别标准。
研究团队采用三阶段递进式架构:首先通过特征融合技术"虚拟合成"伪未知样本,解决源域数据缺失问题;接着构建双判别器网络,结合样本特异性生成动态阈值;最后采用熵加权策略实现精准的分布对齐。实验选取Digits、Office-31和Office-Home三大标准数据集,模拟了数字识别、物体分类等典型场景下的开集挑战。
未知构建阶段
通过线性组合已知类特征,在特征空间外围构造出伪未知样本群。这些"虚拟未知样本"如同侦察兵,帮助模型提前熟悉可能遇到的未知类特征分布,显著缓解了源域监督信号缺失的问题。
动态阈值估计阶段
创新性地设计未知判别器与域判别器的协同机制。前者专注挖掘未知类语义特征,后者则维护已知类的判别边界,二者共同生成的动态阈值能随样本特征自适应变化,有效解决了固定阈值导致的边界模糊问题。
分布对齐阶段
采用对抗训练策略实现双重目标:一方面拉近源域与目标域已知样本的分布距离(如蓝色箭头所示),另一方面推动目标域未知样本形成紧密聚类(红色箭头所示)。这种"分类对待"的策略大幅降低了负迁移风险。
研究结论表明,UCDTE在多个跨域任务中均取得突破性进展。在Digits数据集的S→M任务中,未知类识别准确率提升12.7%;Office-Home数据集的A→W任务中,整体H-score达到68.3%,显著优于OSBP等基线方法。这些成果证实了动态阈值策略对于处理协变量偏移(Covariate Shift)的有效性,特别是当目标域存在显著分布差异时。
该研究的创新价值体现在三重维度:方法学上首次实现样本级动态阈值估计;理论上揭示了特征融合对未知类建模的积极作用;应用层面为医疗影像分析等开放环境下的AI部署提供了可靠工具。正如作者Yong Zhang团队指出,未来可探索阈值生成网络与元学习的结合,进一步强化模型在极端开放场景的适应能力。这项研究犹如在域自适应领域树立了新的路标,为处理现实世界复杂多变的数据分布开辟了崭新路径。
生物通微信公众号
知名企业招聘