
-
生物通官微
陪你抓住生命科技
跳动的脉搏
对比学习解锁几何洞察:基于曲率估计的数据集剪枝新策略(KITTY)
【字体: 大 中 小 】 时间:2025年09月19日 来源:Neural Networks 6.3
编辑推荐:
本文创新性地利用对比学习(CL)观察高维嵌入流形的几何特性,首次提出基于离散高斯曲率估计(CCE)的无监督数据集剪枝框架KITTY采样。该方法通过分析流形曲率分布与实例密度关系,在保持数据多样性(几何多样性及语义多样性)的前提下实现高效数据缩减,为大数据时代的标注成本优化和模型训练效率提升提供了新思路。
亮点
数据高效学习
在机器学习中,大多数数据集规模庞大,由于效率、内存限制等因素,人们可能无法直接对这些海量数据进行建模。最有前景的解决方案之一是通过合成(Synthesis)或采样(Sampling)来缩减数据集规模。合成方法不要求训练用的缩减后数据集是真实数据,包括数据集浓缩和蒸馏。
问题定义与符号说明
给定数据集X:{(xi, yi), i∈N},其中xi∈Rwh3为实例,yi∈N为对应标签。在自监督学习场景中,标签仅用于评估。h=fθ(x)为实例在嵌入空间中的投影,fθ称为编码器网络或骨干网络。{T}是一组数据增强方法(如SimCLR中的裁剪、翻转、颜色抖动和灰度化)。学习到的嵌入通过线性评估任务进行验证。
流形观测与采样
首先,我们提出基于对比学习的曲率估计(CCE)方法,通过计算锚点实例xi与其三个增强样本{xi1, xi2, xi3} = {T1(xi), T2(xi), T3(xi)}之间的离散高斯曲率(其中T1,2,3∈{T}),嵌入通过骨干网络获取且不做归一化(否则将失去多样化的流形结构,仅剩单位超球面)。{hi, hi1, hi2, hi3} = {f(xi), f(xi1), f(xi2), f(xi3)}。所提出的锚点周围曲率估计...
局限性与结论
局限性:我们的流形观测基于语义连续性特性,因此该方法受对比预训练所实现的对齐特性约束。例如,分类模型可能已充分学习类间差异;但类内关系可能未优化——只要同一类被投影到分类边界的同一侧,分类损失就已很好收敛,但无法保证类内样本在嵌入空间中的几何分布。未来工作可探索如何提升类内一致性。
结论:据我们所知,我们首次通过曲率估计观察对比学习方式获得的嵌入流形,发现对比设置下其表面区域存在曲率和密度变化。我们的主要贡献是:(1)探索了对比学习的几何本质,发现传统的单位超球面建模不足;(2)提出KITTY算法,减少训练数据量同时保持其多样性,为高效机器学习提供新工具。
生物通微信公众号
知名企业招聘