AniMer+: 通过基于家族特征的Transformer模型,在哺乳动物和鸟类中实现统一的姿态和形状估计
《IEEE Transactions on Pattern Analysis and Machine Intelligence》:AniMer+: Unified Pose and Shape Estimation Across Mammalia and Aves Via Family-Aware Transformer
【字体:
大
中
小
】
时间:2025年11月25日
来源:IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6
编辑推荐:
哺乳动物与鸟类统一重建框架AniMer+通过分层Transformer架构与合成数据集解决多物种姿态估计难题,在41.3k哺乳与12.4k鸟类数据上实现跨物种3D标注,消融实验验证了专家模型与合成数据的关键作用。
摘要:
在基础模型时代,通过单一网络实现对不同动态对象的统一理解,有望提升空间智能。此外,准确估计多种物种的动物姿态和形状对于生物研究中的定量分析至关重要。然而,由于以往方法的网络容量有限以及综合性多物种数据集的稀缺,这一领域尚未得到充分探索。为了解决这些限制,我们推出了AniMer+,这是我们可扩展的AniMer框架的升级版本。在本文中,我们专注于一种统一的方法来重建哺乳动物(mammalia)和鸟类(aves)。AniMer+的一个关键创新在于其高容量的、具有物种意识的视觉变换器(ViT),该变换器采用了专家混合(MoE)设计。其架构将网络层划分为特定于物种的组件(针对哺乳动物和鸟类)以及跨物种共享的组件,从而能够在单一模型中高效学习独特的和共同的解剖特征。为了解决3D训练数据的严重不足问题,尤其是对于鸟类来说,我们引入了一种基于扩散的条件图像生成流程。该流程生成了两个大规模的合成数据集:CtrlAni3D(包含约10,000张带有像素对齐的SMAL标签的四足动物图像)和CtrlAVES3D(包含约7,000张带有像素对齐的AVES标签的鸟类图像)。值得注意的是,CtrlAVES3D是首个针对鸟类的大规模3D注释数据集,对于解决单视图深度歧义问题至关重要。我们的方法在41,300张哺乳动物图像和12,400张鸟类图像(结合真实数据和合成数据)的汇总集合上进行训练,在包括具有挑战性的跨领域动物王国数据集在内的各种基准测试中表现出优于现有方法的性能。消融研究证实了我们的新型网络架构以及生成的合成数据集在提升实际应用性能方面的有效性。该项目...
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号