一种统一的视觉Transformer(ViT)框架,结合了惩罚性外部点损失(Penalty Outside Point Loss)算法,用于对冰榔江水牛的单目体型测量
《Computers and Electronics in Agriculture》:A unified Vision Transformer (ViT) backbone with Penalty Outside Point Loss for monocular body measurement of Binglangjiang buffaloes
【字体:
大
中
小
】
时间:2025年11月16日
来源:Computers and Electronics in Agriculture 8.9
编辑推荐:
针对牦牛体测数据不足的问题,本文提出了一种基于单目Vision Transformer的低成本测量方法,结合深度估计和关键点检测,并引入新型损失函数提高精度,在424头牦牛上验证,平均绝对误差13.08厘米,相对误差8.71%,有效填补数据空白并支持精准养殖。
本文围绕一种针对中国特有的“屏朗江水牛”(Binglangjiang buffalo)的低成本、非接触式身体测量方法展开,旨在解决传统测量方式中由于动物神经质特性导致的数据缺失问题,并探索基于单目相机的视觉测量技术在该领域中的应用潜力。屏朗江水牛是中国首个发现的本土河流型水牛,主要分布于云南省腾冲市的屏朗河流域,因其优良的乳制品性能和独特的遗传价值,被列为国家重要的畜禽遗传资源,成为我国26种受保护的地方水牛品种之一。此外,该水牛还与当地民族社区的传统文化体系紧密相连,其饲养与利用方式在2017年被列入中国第四批国家级重要农业遗产系统,凸显了其在生态保护与文化传承中的双重意义。
在当前的水牛测量研究中,传统的手动测量方法存在诸多局限性。首先,这些方法依赖于测量工具如量尺、卷尺和卡尺,不仅操作繁琐,而且可能引发动物应激反应,影响测量的准确性。其次,水牛的应激性行为特征,如高度敏感和夸张的应激反应,使得测量过程中易发生饲养员意外,严重影响数据采集的安全性和精确度。因此,为了提高测量效率和动物福利,研究者开始探索基于机器视觉的非接触式测量方法。
现有的非接触式测量方法主要分为两大类:基于3D点云的方法和基于RGB-D相机的方法。前者通常采用多摄像头系统,如深度相机或点云相机,来获取全面的3D数据,这虽然能够实现较高的测量精度,但设备成本高昂,部署复杂,且对同步和注册要求严格,增加了技术门槛。后者则使用RGB-D相机,通过深度图像和RGB图像的结合,实现对动物关键部位的检测与测量。然而,即使使用较少的深度相机(通常为三台),RGB-D相机的成本仍然较高,导致相关研究的样本数量有限,如Kwon等人仅使用了70头猪进行体重估算,Li等人则对136匹马进行了数据采集,而Du和Wu等人分别使用了103头Hereford牛和47头华西黄牛的图像数据。这些有限的样本可能导致数据集代表性不足,从而限制了方法在小型农场中的实际应用。
为了克服上述限制,本文提出了一种基于单目相机的水牛身体测量方法,该方法采用统一的基于视觉Transformer(ViT)的主干网络进行特征提取,并通过一个专门的深度估计头来提供深度数据,从而在仅使用单目RGB相机的情况下完成身体测量。本文的主要贡献包括:构建了一个包含424头屏朗江水牛身体测量数据的高质量数据集,包括13,376张右侧视图图像和1.2 GB的原始RGB-D视频数据;提出了一种基于ViT的主干网络,用于同时执行关键点检测和深度估计任务,通过共享权重的方式显著减少了模型的总参数量,从而降低了模型部署的复杂性;引入了一种新颖的“外部点惩罚损失”(Penalty Outside Point Loss)函数,以防止关键点在2D图像中被错误地预测为背景区域,从而显著减少测量误差。
本文的研究框架如图1所示,主要包含三个核心部分:基于DINOv2的主干网络,用于特征提取;单目深度估计头,用于深度预测;以及关键点检测头,用于精确的关键点定位。其中,主干网络的特征提取部分采用了DINOv2模型,该模型在无标签数据的情况下通过自蒸馏策略实现了优越的性能。深度估计头则采用了DPT(Dense Prediction Transformer)模型,通过融合主干网络的不同层的特征图,实现了像素级别的深度预测。关键点检测头则基于ViTPose解码器,但对其进行了改进,通过结合主干网络的最后四层特征图,实现了对不同空间分辨率下的关键点检测。这种集成架构支持高效的多任务学习,通过共享主干网络的丰富视觉表示,同时保持对深度估计和关键点检测的专用头。
本文的研究成果表明,该方法在深度估计、关键点检测和身体测量方面均表现出良好的性能。在深度估计任务中,该方法实现了0.159的绝对相对误差(AbsRel),在关键点检测任务中,平均精度(AP)达到了94.83%,并且在身体内部点比例(IPR)方面达到了95.14%。对于水牛身体高度(BH)、髋部高度(HH)、斜体长度(OBL)、胸围(CG)和腹围(AC)的平均绝对百分比误差(MAPE)分别为7.37%、6.79%、13.67%、8.39%和7.35%。这些结果表明,该方法在精度和效率方面均优于传统的测量方法,能够有效填补屏朗江水牛身体测量数据的长期空白。
本文的方法在实际应用中展现出显著的优势。首先,其依赖于单目相机,避免了多摄像头系统所带来的高成本和复杂部署问题,从而降低了系统的整体成本,提高了其在实际应用中的可行性。其次,该方法通过引入“外部点惩罚损失”函数,有效提高了关键点定位的准确性,减少了因关键点预测在背景区域而导致的测量误差。此外,该方法还能够适应不同的光照条件,如图16所示,其在不同γ值(表示光照强度的参数)下的表现显示出较高的鲁棒性,尤其是在低光照和不均匀光照条件下,其在关键点检测和深度估计方面的性能均保持在较高水平。
本文的研究结果表明,该方法在实际测量中能够有效应对水牛的应激行为,提高测量的准确性和安全性。通过实验验证,该方法在测量过程中能够快速、准确地获取水牛的关键身体尺寸,如身体高度、髋部高度、斜体长度、胸围和腹围,这些数据对于水牛的生长评估、选育和资源保护具有重要意义。此外,该方法还能够在不同的光照条件下保持较高的测量精度,这在实际应用中尤为重要,因为农业环境中光照条件往往复杂多变。
在部署效率方面,本文的研究结果表明,该方法在不同硬件平台上均表现出良好的性能。例如,在RTX 3090 GPU上,单张图像的推理时间为226.18毫秒,而在使用ONNX运行时,推理时间可以降低至193.48毫秒,实现约5.17帧/秒的处理速度。在边缘计算设备如Jetson Orin NX上,推理时间可以进一步优化,从4,496.04毫秒降低至2,490.54毫秒,推理效率提高了44.6%。这些结果表明,该方法在实际部署中具有较高的效率和可行性,尤其适合在资源有限的农业环境中使用。
综上所述,本文提出的基于单目相机的水牛身体测量方法,不仅能够有效解决传统测量方法中因动物应激行为导致的数据采集难题,还能够在低成本和高效率的前提下,提供准确的身体测量数据,为水牛的精准饲养管理和遗传资源保护提供了重要的技术支持。此外,该方法在不同光照条件下的稳定性,以及在不同动物姿态下的测量能力,使其在实际应用中具有广泛的适用性。未来的研究可以进一步优化该方法,以提高对水牛姿态变化的适应性,从而进一步提升测量的精度和可靠性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号