基于跨物种无标注数据的自监督学习新方法推动动物行为识别研究
《Scientific Reports》:Advancing animal behavior recognition with self-supervised pre-training on unlabeled data
【字体:
大
中
小
】
时间:2025年12月17日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对动物活动识别(AAR)中标注数据稀缺的瓶颈问题,提出了一种基于对比学习的自监督学习(SSL)框架。该研究利用公开的跨物种无标注数据,通过时间-频率一致性(TF-C)目标对基于Patch时间序列Transformer(PatchTST)的编码器进行预训练,学习可迁移的运动表征,并在物种特异性标注数据上微调。结果表明,该方法在有限标注数据下显著提升了识别性能,准确率和F1分数分别比基线提高4.79%和4.57%,有效改善了语义相似行为的区分能力并保持了样本减少时的鲁棒性,为可扩展、低标注成本的动物行为监测提供了新方向。
在精准畜牧和动物福利研究领域,动物行为是评估其生理和心理健康状态的关键指标。传统的动物行为监测主要依赖人工观察,耗时费力且主观性强。随着可穿戴传感器(如加速度计、陀螺仪等)的普及,基于深度学习技术的动物活动识别(AAR)方法显示出巨大潜力,能够自动从复杂的传感数据中提取特征并识别不同行为(如采食、饮水、奔跑等)。然而,现有方法通常严重依赖大量标注数据,而数据标注过程成本高昂,严重限制了模型在真实场景中的推广应用。
为了缓解标注数据稀缺的问题,研究者们尝试了数据增强、半监督学习和迁移学习等多种策略。其中,预训练技术通过在大规模数据上学习通用表征,能够显著降低对下游任务标注数据量的需求。然而,当前AAR领域的预训练方法主要依赖单一物种的标注数据,忽略了大量公开可用的跨物种无标注数据资源。这些数据虽然易于获取且富含行为信息,却在现有研究范式中未被有效利用。此外,传统对比学习方法在时间序列数据上应用时,常因数据增强操作(如翻转、裁剪)破坏信号的时间结构或语义一致性,导致表征学习效果不佳。
针对上述问题,杭州电子科技大学等单位的研究人员在《Scientific Reports》上发表了一项创新研究,提出了一种基于对比学习的自监督学习(SSL)框架,旨在利用跨物种无标注数据提升AAR性能。该研究的核心思路是:假设从大规模跨物种数据中学习到的表征能够为物种特异性的下游分类任务提供更好的初始化,从而有效缓解因标注数据不足导致的性能下降。
该研究采用两阶段流程。首先,在预训练阶段,研究团队构建了一个包含牛、羊、马等多种动物共计576,897个未标注样本的数据集,并采用时间-频率一致性(TF-C)框架对基于Patch时间序列Transformer(PatchTST)的编码器进行预训练。该方法通过联合优化时间域对比损失(?iT)、频率域对比损失(?iF)和跨域一致性损失(?iC),使模型能够学习对时间和频率变化均鲁棒的运动表征。其次,在微调阶段,预训练的编码器作为特征提取主干网络被集成到一个新设计的分类模型中,该模型利用PatchTST捕获轴内局部动态特征,并通过深度可分离卷积(Depth-wise Separable Convolution)实现轴间全局特征融合,最后在目标物种(山羊)的标注数据上进行微调。
主要技术方法包括:1)基于时间-频率一致性(TF-C)的自监督预训练,利用跨物种无标注数据学习通用运动表征;2)基于PatchTST的时序特征提取器,通过分块(Patching)机制降低计算负担并捕获局部动态;3)结合深度可分离卷积的分类模型,实现跨轴特征高效融合;4)使用留一法交叉验证和多种评估指标(准确率、F1值等)评估模型性能;5)采用t-SNE可视化等技术分析特征学习效果。
实验结果表明,基于自监督预训练的模型在所有评估指标上均显著优于从零开始训练的基线模型。具体而言,其准确率达到92.55%,F1分数为82.32%,精确率为81.68%,召回率为89.55%,相比基线分别提升了4.79%、4.57%、3.18%和4.64%。这些一致的性能提升证实了跨物种预训练能够有效提升分类性能与泛化能力。
召回混淆矩阵进一步揭示了模型在区分易混淆行为方面的优势。基线模型常将小跑(trotting)误判为奔跑(running),将行走(walking)误判为采食(grazing),而经过预训练的模型将小跑和行走的召回率分别提升了10.2%和15.2%,表明其能够学习到更具判别性的特征以更好地区分语义相似的行为。
t-SNE可视化分析直观展示了预训练前后特征空间的变化。预训练前的特征提取器产生的特征区分度较弱,不同类别样本在特征空间中混杂。而经过TF-C预训练后,提取的特征呈现出更清晰的类间边界和更小的误判倾向,证明了该方法从未标注数据中学习到了有意义的表征。
对分类模型中深度可分离卷积的消融实验表明,分组一维卷积(Grouped 1D Convolution)和逐点卷积(Pointwise Convolution)均对最终性能有积极贡献。分组一维卷积通过捕获轴内局部时序依赖,显著提升了宏平均准确率,改善了少数类行为(如小跑)的识别效果;而逐点卷积则通过融合跨轴特征,进一步提升了模型的综合性能。
为评估方法在标注数据稀缺场景下的有效性,研究比较了在不同比例训练数据(100%、75%、50%、25%)下的性能。结果表明,在不同数据规模下,所提方法的性能均稳定优于基线,证明了通过自监督预训练学习到的特征具有较强的泛化能力,对标注数据量的变化不敏感。
该研究成功论证了利用跨物种无标注数据进行自监督预训练在动物活动识别中的有效性和巨大潜力。其提出的两阶段学习框架通过时间-频率一致性目标学习可迁移的运动表征,并结合新颖的分类架构有效提升了在有限标注数据下的识别性能、分类平衡性及模型鲁棒性。尽管当前研究使用了模拟的无标注数据(源自原有标注数据集去除标签),且未显式建模不同物种间相似行为可能对应的差异运动模式,但其为构建动物行为识别基础模型提供了可行的技术路径。未来工作可聚焦于收集真实场景下大规模、多物种的无标注数据,并探索融入物种特异性先验知识(如分类学或形态学信息)以进一步提升表征的通用性和判别力。这项研究为降低动物行为监测的标注成本、推动可扩展的智能畜牧发展提供了重要的方法论支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号