
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于捷径壳学习(SHL)的AI模型评估框架:消除数据偏差与揭示卷积网络在全局拓扑识别中的优势
【字体: 大 中 小 】 时间:2025年07月02日 来源:Nature Communications 14.7
编辑推荐:
本研究针对AI模型评估中因数据捷径(shortcut learning)导致的性能误判问题,提出捷径壳学习(SHL)诊断范式与无捷径评估框架(SFEF)。通过构建拓扑数据集验证发现,传统认为全局能力较弱的卷积模型(CNN)实际优于Transformer模型,挑战了现有认知,为AI可靠性评估提供了新范式。
论文解读
在人工智能领域,数据驱动的模型评估长期面临一个隐蔽陷阱:捷径学习(shortcut learning)。当数据集存在隐含偏差时,模型会利用与任务无关的统计相关性(如纹理而非形状)进行“作弊”,导致评估结果失真。这种现象如同考试中考生通过背答案而非理解原理获得高分,严重干扰对模型真实能力的判断。尤其在高维数据中,传统方法难以穷举所有可能的捷径特征,形成研究者所称的“捷径诅咒”。
为破解这一难题,中国科学院的研究团队在《Nature Communications》发表研究,提出革命性的捷径壳学习(Shortcut Hull Learning, SHL)范式。该研究通过概率空间统一表示捷径特征,结合多模型协同诊断,构建无捷径评估框架(SFEF)。令人意外的是,应用该框架评估视觉拓扑识别能力时,传统认为“局部偏好”的卷积神经网络(CNN)竟超越专为全局建模设计的Transformer模型,颠覆了领域共识。
关键技术方法
研究团队首先设计拓扑数据集,通过威尔逊算法生成闭合环状结构,确保仅通过局部3×3像素修改即可改变全局拓扑属性。采用11种不同 inductive bias 的模型(如ResNet-50、ViT-B/16)组成诊断套件,利用HiResCAM可视化特征,通过概率空间公式(7)(8)计算捷径壳(SH)。最终构建包含12个难度层级、分辨率达133×133的评估数据集,采用SGD优化器训练模型。
研究结果

拓扑数据集验证:
统计显示10×10像素以下区域无类别区分度(图4b),但SHL诊断发现CNN模型需343像素区域才捕获全局特征(图4c),证实数据集的捷径自由性。
模型能力重估:
在125×125分辨率下,ResNet-50达到100%准确率,而ViT-B/16仅98.22%(表1)。Swin Transformer因融合CNN架构表现居中,验证“架构偏好≠能力”的核心发现。
结论与意义
该研究首次实现从Minsky的神经网络表征分析到学习能力实证研究的跨越。其重要意义在于:
正如研究者Wenhao Zhou等强调:“模型的学习偏好不能代表其学习能力。”这一发现不仅推动AI可解释性研究,更警示学界:唯有消除数据捷径,才能揭示智能模型的真实边界。未来,SHL框架有望拓展至多模态系统评估,为构建更可靠的AI系统奠定基础。
生物通微信公众号
知名企业招聘