单目深度生成与相机深度的比较分析:用于非侵入式兔子活体重估计

《Smart Agricultural Technology》:Comparative Analysis of Monocular Depth Generation and Camera Depth for Non-Invasive Rabbit Live Weight Estimation

【字体: 时间:2025年11月01日 来源:Smart Agricultural Technology 5.7

编辑推荐:

  本研究评估了计算机视觉技术对兔子非侵入式体重估算的可行性,比较了RGB、真实深度及AI生成深度图的效果。通过收集1113只兔子的数据,发现AI生成深度图(如MG_4)结合EfficientNetV2模型表现最佳(R2=0.945,RMSE=368.36g),传统模型Extra Trees同样达到高精度(R2=0.945),但形态学预处理降低性能。MobileNetV4在效率与精度间取得平衡(31.18MB,1.79GFLOPS),适合边缘部署。研究指出AI生成深度图可作为硬件深度传感器的低成本替代方案,并建议采用预处理-free流程提升实用性。

  在现代商业兔养殖中,准确评估活体重量对于高效生产管理至关重要。传统的手动称重方法不仅劳动密集,而且会对动物造成压力,同时在频繁监测时也不够实际。因此,本研究评估了基于计算机视觉的非侵入式活体重量预测方法,比较了RGB图像、真实深度图像以及由人工智能生成的深度图像作为输入模态的性能。为了验证这些方法的有效性,研究人员在受控条件下收集了1113只断奶和接近屠宰的兔子(体重范围为1.2–7.7公斤)的同步RGB和深度图像数据集。通过YOLOv11进行图像分割,无需进一步微调,展示了其在兔检测中的可行性。同时,研究人员还应用了形态学预处理技术,以评估其对模型性能的影响,并利用RGB图像的表格特征训练了传统的机器学习模型(如Extra Trees和Gradient Boosting)。在深度学习模型方面,EfficientNetV2、MobileNetV4以及一个双流融合模型被用于RGB、真实深度和生成深度输入数据的训练。实验结果表明,由AI生成的深度图与RGB图像相比,能够达到或超过其预测效果,其中EfficientNetV2在使用MG_4(一种经过4次去噪处理的AI生成深度模型)时取得了最高准确度(R2 = 0.945,RMSE = 368.36克)。研究还发现,形态学预处理对所有测试模型和输入类型均产生了负面影响,表明这些操作可能去除了对模型预测有帮助的信息。双流融合模型也取得了具有竞争力的结果(R2 = 0.941,RMSE = 379.935克),但其与单模态输入相比提升有限。值得注意的是,Extra Trees模型在未进行预处理的情况下达到了R2 = 0.945,RMSE = 366.241克的预测效果,与深度学习模型不相上下。MobileNetV4则在效率和准确度之间取得了最佳平衡(31.18MB,1.79GFLOPS),使其成为边缘部署的理想选择。这些发现表明,AI生成的深度图像可以作为一种可扩展且成本效益高的替代方案,以替代硬件深度传感器,并支持在精准兔养殖中采用无需预处理的流程。

### 1. 引言

在当今的商业兔养殖中,精确的个体活体重量评估是有效生产管理的关键因素。因此,监测活体重量对于优化饲养策略、跟踪生长情况、提高环境利用效率以及提供潜在健康问题或疾病的早期预警至关重要。传统的兔子活体重量测定通常依赖于手动称重,即通过捕捉每只动物并将其放置在电子秤上进行测量。虽然直接称重仍然是标准做法,但其在大型商业农场中存在诸多限制,如劳动密集和耗时费力,需要大量的人力投入,从而干扰日常农场运营。此外,兔子天性胆小,在处理和称重过程中常常会经历较大的压力,这可能对它们的福利产生负面影响。频繁的处理操作还增加了疾病在大规模兔养殖环境中传播的风险。因此,开发非侵入性和自动化的活体重量估计方法变得尤为重要,以克服这些挑战并提高兔生产效率。

### 2. 材料与方法

#### 2.1 数据采集与预处理

数据采集工作于2024年11月11日至2025年2月3日期间在兔舍农场进行,采用断奶兔子和成年(接近屠宰大小)兔子作为研究对象。实验设备包括一个固定在平台上的OAK-D Pro相机(12 MP,80厘米高度),用于同时获取RGB图像和立体深度图像。兔子从兔舍中取出,放置在一个棕色的平台上进行图像采集和重量记录。为了确保数据的同步性,开发了一款软件,用于在图像采集的同时记录重量。该软件初始化了相机采集流程,并通过串口连接到电子秤,以确保在用户输入时实时显示图像。当需要时,保存RGB和深度图像,其中RGB图像以JPEG格式保存,而深度图像则以NumPy数组的二进制格式保存。稳定的重量数据以侧边文件形式保存,当电子秤的读数稳定时(连续三次读数相同),才视为有效数据。总共测量了1113只独特的兔子,其重量范围为1.2至7.7公斤。

#### 2.2 使用YOLOv11进行图像分割

YOLOv11在早期版本中可能在分割和小目标检测方面表现不佳,但最近的迭代优化了特征提取能力,使其能够捕捉图像中的复杂细节,从而显著提高了速度和准确性的平衡。YOLOv11支持多种应用,包括实时目标检测、实例分割和姿态估计,这使其能够准确识别不同方向、尺寸和姿态的物体,从而适用于多个行业。本研究中,YOLOv11-large分割模型用于对RGB图像进行分割,未进行微调,因为当前版本的YOLOv11未包含兔子类别。因此,研究人员通过提取每张图像中最大的分割对象,假设其代表兔子。此外,进行了额外的视觉验证,以确保正确的分割方法。在深度图像的分割过程中,使用RGB图像分割得到的掩码对深度图像和生成的深度图像进行分割。分割后的RGB图像和深度图像被中心化,并划分为训练集(70%)、验证集(15%)和测试集(15%)。训练和验证数据集通过albumentations(v2.0.0)库进行了增强,使用垂直翻转和水平翻转等操作。总共生成了3216张RGB和深度图像(包括增强数据)用于训练,568张用于验证,334张用于测试。图3和图4展示了RGB图像、深度图像和生成深度图像在预处理前后的示例。

#### 2.3 图像预处理

研究人员对分割后的图像进行了形态学预处理,以减少由身体部分(如脚和耳朵)引起的噪声。通过侵蚀和膨胀操作,对分割掩码进行了处理,以提取投影面积,并根据该面积构建椭圆形的核。这些操作导致了形态学处理后的数据集(称为MP)。最终,图像被划分为训练和测试集,并按照与图3相同的流程进行了增强和分割。图3展示了原始RGB图像和其经过数据增强和中心化后的处理版本,图4展示了原始深度图像及其经过RGB分割掩码处理后的深度图像,以及生成的深度图像。

#### 2.4 特征提取

为了评估传统机器学习模型在活体重量预测中的表现,研究人员从分割后的RGB图像中提取了预测的形态学测量值。这些特征包括投影面积、圆形度、周长、身体长度和宽度、骨骼长度以及体积,均通过凸包方法从相机深度图像中获得。研究人员使用了scikit-image(v0.25.2)和SciPy(v1.11.4)库进行这些特征的提取,以确保模型能够有效地利用这些信息。

#### 2.5 单目深度估计

本研究提出了一种新的实现方法,旨在通过单目RGB图像进行深度图像生成,从而避免使用立体相机获取深度图像的需求。研究人员采用了两个最先进的框架:Marigold(MG)和Distill-Any-Depth(DAD),用于评估深度图像生成的潜力。MG是一种扩散模型,利用现代生成图像模型中存储的广泛视觉知识进行单目深度估计。其核心原理是通过微调协议来适应未见过的数据,这促使研究人员在本工作中采用该模型。RGB图像使用了模型的默认参数,并进行了两次不同的去噪处理步骤(1和4),以评估模型在细节提取方面的效果。其中,MG_1表示更详细的图像(去噪较少),而MG_4表示更少细节的图像(去噪较多)。另一方面,DAD是一种零样本框架,采用交叉上下文蒸馏技术,整合全局和局部深度线索以提高伪标签的质量。此外,引入了多教师蒸馏框架,利用不同深度估计模型的互补优势,以实现更稳健和精确的深度预测。深度图像生成的参数设置为默认值(预训练模型:prs-eth/marigold-lcm-v1-0,使用两个去噪步骤:1和4,集成大小:5,处理分辨率:768)。处理后的图像结果为深度生成图像,如图4所示。此外,还对深度图像进行了预处理,以去除环境噪声,并使用YOLOv11-large分割的RGB图像掩码进行处理。数据集的增强和划分过程与图3中的流程相同。

#### 2.6 模型评估

为了评估生成的不同数据库(包括从RGB图像提取的表格特征、RGB图像、真实深度图像、生成的深度图像(MG_1、MG_4和DAD)),研究人员进行了以下流程。对于表格特征,数据被归一化,并通过10折交叉验证对70%的数据集进行了评估,结果为交叉验证得分的平均值。此外,还进行了模型选择,以确定哪些变量对模型预测有更大的影响。用于模型评估的库是Pycaret(v3.0)。当单独评估RGB或深度图像时,使用了PyTorch Image Models(TIMM)库中的EfficientNetV2-M和MobileNetV4-M模型。此外,研究人员采用了Song等人(1)开发的活体重量估计网络,该网络最初设计用于NIR和深度融合,并将其调整为适用于RGB和深度输入。该网络由两个ResNet18主干(分别用于每种模态)、DSFF增强的特征金字塔网络(FPN)用于多尺度融合,以及一个回归头组成。RGB主干使用标准的第一卷积层(3通道输入),而深度主干则修改了第一层以接受单通道输入。两者均提取了四个层次的特征。在每个尺度上,特征通过DSFF模块进行融合:通道被对齐到128通道,然后通过3×3卷积进行合并,并使用SE-Net启发的通道注意力机制进行增强。融合后的特征通过FPN进行自上而下的整合,最终的活体重量预测由3×3卷积和全局平均池化在最高分辨率的融合特征图上生成。对于融合模型方法,图像在训练前被调整为244×244尺寸。表1展示了实验过程。

#### 2.7 模型训练

在训练过程中,所有模型均从头开始训练120个周期,使用Adam优化器和0.0001的学习率。选择4个批次大小以优化计算效率,同时在给定的硬件限制下保持较高的性能。均方误差(MSE)被用作回归任务的损失函数,定义如式(1)所示。式(1)中,n表示测试集中的图像总数,y_t是对应兔子的真实重量,y_p是估计的重量。研究人员还使用了不同的评估指标,如R2(决定系数)、MAD(平均绝对偏差)和MAPE(平均绝对百分比误差),以全面评估模型的性能。

#### 2.8 评估指标与平台

R2(决定系数)衡量了回归模型中因变量变化比例由自变量解释的程度。R2越接近1,模型对数据的拟合越好,表示因变量的更大变化被模型所解释。MAPE是回归任务中常用的评估指标,衡量预测值与实际值之间的平均百分比误差,并以百分比形式表示相对误差。MAD是预测值与实际值之间绝对差异的总和除以样本数量,表示预测误差的平均绝对值。所有操作均在Windows 11工作站上使用Python 3.11.9进行。工作站配备了一块32 GB的Intel i7-13700F CPU和一块16 GB的NVIDIA GeForce RTX 4060 Ti GPU。

### 3. 结果与讨论

#### 3.1 预处理与数据集准备

YOLOv11在未微调的情况下表现良好,成功检测了兔子的主要身体轮廓。虽然该模型偶尔会将兔子误分类为鸟类或其他类别,但分割结果足够稳健,足以用于后续的数据增强、特征提取和模型评估。为了确保掩码提取的准确性并避免不必要的伪影,研究人员选择了每张图像中最大的分割对象,从而可靠地隔离了兔子的掩码。然而,需要注意的是,在其他环境或设置中应用这种方法时,可能会因姿态或背景复杂性而产生差异。在深度数据生成方面,MG框架在不同去噪因子(1和4)之间表现出显著的细节提取差异。具体而言,因子4生成的深度图与相机捕捉的深度数据更为一致,但相比RGB衍生的特征,细节较少。相比之下,DAD框架显著提高了深度信息的提取,特别是在区分兔子耳朵方面,其清晰度优于MG和传统深度相机图像。这表明DAD方法在保留对形态分析和特征提取至关重要的解剖细节方面更为优越。然而,使用DAD生成深度图像的速度较慢,在当前设置下平均为1.43张图像每秒,而DAD的生成速度为0.23张图像每秒。这表明虽然DAD可能生成更高细节的深度图,但其处理时间显著增加。未来的研究应评估这种权衡在低功耗硬件上的表现,因为这些系统在生产领域更为常见。

#### 3.2 传统机器学习模型从RGB图像特征的评估

根据之前的研究,从RGB图像中提取的特征用于测量和估计动物的形态学特征,并且这些特征与活体重量有直接相关性。根据选定的特征(投影面积、圆形度、曲率、周长、身体长度和宽度、骨骼长度和体积),研究人员评估了19个模型,并在表2中展示了结果。为了确定哪些变量对模型预测有更大的影响,研究人员选择了前两个模型(Gradient Boosting Regressor和Extra Trees Regressor),它们在形态学预处理(MP)后取得了最高的性能。这些模型分别达到了R2值为0.95和0.95,其均方根误差(RMSE)分别为342.48克和348.76克。在没有MP的情况下,两个模型仍然保持了较强的性能(R2 = 0.94),但其RMSE略有增加(分别为371.93克和373.91克)。此外,研究人员还评估了不同模型在形态学预处理和未预处理情况下的表现,并在表3中展示了结果。

#### 3.3 深度学习模型的训练过程

研究人员根据之前的文献和模型的易用性及可移植性选择了模型,如MobileNetV4,它被设计用于移动生态系统,而EfficientNetV2则因其更快的训练速度和更好的参数效率而被选中。此外,还评估了之前研究中开发的融合模型,该模型在NIR和深度图像中表现良好。然而,在本研究中,NIR数据被替换为RGB图像的三个通道。在模型的训练过程中,这些模型能够比预期更快地捕捉和识别主要的活体重量预测特征。对于EfficientNetV2,使用RGB数据时达到了R2 = 0.934(RMSE = 401.922克),而MobileNetV4则表现出更好的性能,R2 = 0.938(RMSE = 389.905克)。这表明,RGB图像本身就能提供丰富的形态学线索,这些线索与活体重量有高度相关性。然而,直接从相机获取的深度数据在单独使用时表现不佳,例如EfficientNetV2在未进行形态学预处理时仅达到R2 = 0.878(RMSE = 546.566克),表明原始深度图可能缺乏足够的细节或包含噪声,限制了其应用效果。

#### 3.4 活体重量评估

在模型评估过程中,研究人员通过不同的输入数据集(如RGB图像、真实深度图像、生成深度图像)对所选的深度学习模型进行了评估。对于EfficientNetV2,使用DAD输入时达到了R2 = 0.936(RMSE = 395.024克),超过了RGB图像的性能。而MG_4则达到了R2 = 0.945(RMSE = 368.358克),这是所有单输入配置中最高的性能。这表明,通过高级生成技术获得的合成深度图像能够更有效地捕捉结构特征,可能是因为其增强了边缘定义和去噪效果。在融合模型中,结合MG_4和RGB图像的性能为R2 = 0.922(RMSE = 437.927克),而DAD和RGB的融合则达到了R2 = 0.942(RMSE = 376.600克)。这些结果支持了多模态融合可以丰富特征空间,通过结合RGB的纹理和颜色信息与深度的几何结构,从而实现更稳健的活体重量估计。然而,融合带来的提升并非在所有深度源中都一致,这表明深度输入的质量在决定融合效果中起着关键作用。此外,尽管之前的文献强调了相机获取的深度图像的优势,但当前的实验设置(OAK-D Pro)生成的深度图细节较低。相比之下,AI生成的深度模型(如MG_4)能够在零样本场景中提取更丰富的形态学特征。当与RGB图像融合时,这些合成深度图有助于提高活体重量预测的准确性,通过减少毛色变化和光照变化带来的干扰因素。

#### 3.5 形态学预处理的影响

出乎意料的是,形态学预处理在所有模型和输入类型中均导致了模型性能的下降。例如,在EfficientNetV2中,使用相机深度图像进行预处理后,R2从0.931下降到0.878,RMSE从412.351克上升到546.566克。这一趋势在所有深度输入和模型中均被观察到:预处理导致了性能的下降。值得注意的是,融合模型(如RGB与深度图像结合)表现出不同的模式——形态学预处理在使用相机深度图像时提升了预测准确性。这表明,原始深度图可能包含噪声或结构伪影,这些伪影干扰了有效的特征融合,而适度的形态学平滑有助于对齐深度和RGB表示。因此,当使用高质量的生成深度图像时,形态学预处理应被避免。

#### 3.6 模型效率与实际应用考虑

与传统机器学习模型相比,深度学习模型在精度方面表现出色,但它们的效率对于实际农业应用至关重要。如表5所示,MobileNetV4是效率最高的深度学习模型,其模型大小为31.181 MB,计算复杂度为1.794 GFLOPS,使其成为边缘部署的理想选择。相比之下,EfficientNetV2虽然性能优异,但其资源需求较高(201.647 MB,10.753 GFLOPS),限制了其在嵌入式系统上的可行性。此外,传统机器学习模型(如Extra Trees Regressor)在未进行形态学预处理时表现出了与深度学习模型相当甚至更好的性能。这表明,在特征工程良好的情况下,简单的模型可以与深度学习方法相媲美,同时对计算资源的需求较低。然而,在更复杂的场景(如动物姿态变化、遮挡或环境噪声)中,特征提取可能会失败,导致模型对细微形态学变化的捕捉能力受限。相比之下,深度学习模型能够直接从原始数据中学习分层表示,从而更好地适应这些复杂和嘈杂的条件。这些发现支持了向轻量级、无需预处理的流程转变,这些流程利用单目RGB图像生成的深度图像,从而避免了昂贵的深度传感器的需要。未来的研究应集中在不同养殖环境和动物姿态下的实际验证,并将高效模型集成到自动化的农场监测系统中,以推进精准兔养殖的发展。

### 4. 结论

本研究展示了深度学习和传统机器学习模型在利用多模态成像数据进行兔活体重量预测方面均能实现高精度。在深度学习模型中,AI生成的深度图(如DAD和MG_4)表现出色,其中EfficientNetV2在使用MG_4时达到了最高的R2值(0.945),超过了RGB和相机获取的深度输入。值得注意的是,形态学预处理在所有模型和输入类型中均导致了性能的下降,表明这些操作可能去除了对模型预测至关重要的细小解剖细节。因此,在使用高质量的生成深度数据时,应避免形态学预处理。融合模型(如DAD与RGB图像结合)取得了具有竞争力的结果,但并未在所有情况下超越单模态输入,并引入了额外的架构复杂性。相比之下,MobileNetV4在效率和精度之间取得了最佳平衡(31.18 MB,1.79 GFLOPS),使其成为边缘部署的理想选择。此外,传统机器学习模型(如Extra Trees Regressor)在未进行形态学预处理的情况下表现出了与深度学习模型相当甚至更好的性能。这表明,在特征工程良好的情况下,简单的模型可以与深度学习方法相媲美,同时对计算资源的需求较低。然而,在更复杂的场景(如动物姿态变化、遮挡或环境噪声)中,特征提取可能会失败,导致模型对细微形态学变化的捕捉能力受限。相比之下,深度学习模型能够直接从原始数据中学习分层表示,从而更好地适应这些复杂和嘈杂的条件。这些发现支持了向轻量级、无需预处理的流程转变,这些流程利用单目RGB图像生成的深度图像,从而避免了昂贵的深度传感器的需要。未来的研究应集中在不同养殖环境和动物姿态下的实际验证,并将高效模型集成到自动化的农场监测系统中,以推进精准兔养殖的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号