编辑推荐:
推荐
为解决农业机器人果实采摘中树枝结构精准重建的计算低效与高成本问题,研究人员设计 ET-PatchNet(基于 Transformer 和 Patchmatchnet 的低内存神经网络)。实验表明其在 DTU 等数据集表现优异,可有效重建苹果树树枝 3D 结构,对移动嵌入式采摘设备有重要意义。
论文解读
在智慧农业的浪潮中,果实采摘机器人的应用正面临着一个棘手的挑战 —— 果园中树木因野生种植方式形成的不规则生长形态,使得机器人手臂在作业时频繁与树枝碰撞,而精准的树枝三维结构重建是实现无碰撞采摘的关键。现有的多视图立体(Multi-view Stereo, MVS)技术在深度图预测中存在计算效率低、内存消耗大等问题,尤其在复杂户外光照条件下,特征匹配模糊、三维一致性不足等难题亟待解决。为了突破这些瓶颈,让采摘机器人能更智能地 “看清” 果树结构,国内研究团队开展了一项具有创新性的研究,相关成果发表在《Computers and Electronics in Agriculture》。
研究团队设计了 ET-PatchNet,这是一种基于 Transformer 和 Patchmatchnet 的低内存神经网络,旨在实现高效的三维重建。该模型集成于 MVS 流程中,通过生成深度图为果实采摘机器人提供精准的空间数据支撑。
关键技术方法
研究采用了以下主要技术:
- 基于 Transformer 的注意力机制:引入自注意力(self-attention)和交叉注意力(cross-attention)机制,增强全局和三维一致性信息,提升深度预测精度。
- 自适应深度重采样方法:嵌入基于可学习补丁的从粗到细的迭代深度回归架构,以减少内存使用。
- 辅助任务集成:进一步增强深度特征的表示能力。
- 多数据集训练与验证:使用 DTU 数据集进行模型训练及性能评估,Tanks&Temples(T&T)数据集评估模型泛化能力,BlendedMVS 数据集对模型进行微调以实现苹果树树枝结构重建。
研究结果
模型性能评估
在 DTU 和 T&T 数据集评估中,ET-PatchNet 在完整性、计算效率和低内存使用方面均优于竞争对手。当预测分辨率为 1152×864 像素的单张深度图时,推理仅需 0.13 秒,内存使用仅 2824MB,展现出高效的计算效率和低内存消耗优势。
苹果树树枝三维重建
通过在 BlendedMVS 数据集上对模型进行微调,成功实现了苹果树上可观测树枝的三维结构重建。重建的树枝点与参考点之间距离的平均值和方差分别仅为 0.0292mm 和 0.0187mm2,表明该模型在实际果树树枝三维重建中具有较高的精度。
研究结论与讨论
ET-PatchNet 通过结合 Transformer 和 Patchmatchnet,构建了高效且内存优化的 MVS 模型。其设计的迭代从粗到细的深度回归网络、多尺度特征提取以及自注意力和交叉注意力机制,有效捕捉了丰富的语义信息。自适应传播和评估过程以及辅助任务分支的应用,进一步提高了深度感知能力。
尽管由于轻量级设计,模型在 T&T 数据集上的泛化能力与最先进模型相比可能存在细微差距,但这是为优先考虑低内存消耗和计算效率所做的有意权衡,这对于农业机器人领域至关重要。该模型为移动嵌入式果实采摘设备的集成提供了理想的解决方案,在农业机器人领域具有广泛的应用潜力,有望推动智慧农业中果实采摘自动化的发展,为解决劳动力短缺和种植成本增加等问题提供新的技术路径。