一种基于混合现实的远程协作框架,采用了改进的姿态估计技术
《COMPUTERS IN INDUSTRY》:A mixed reality-based remote collaboration framework using improved pose estimation
【字体:
大
中
小
】
时间:2025年12月05日
来源:COMPUTERS IN INDUSTRY 9.1
编辑推荐:
本文提出一种基于单张RGB图像的6-DoF姿态估计方法,通过融合区域主成分分析(RoI-PCA)颜色空间增强技术提升复杂环境下的估计精度,并构建支持多设备实时协作的MR框架,广泛应用于制造、维护等领域。
吴英英(Inyoung Oh)| 张吉桑(Gilsang Jang)| 宋镇浩(Jinho Song)| 孙梦古(Moongu Son)| 金大元(Daewoon Kim)| 尹俊尚(Junsang Yun)| 高光熙(Kwanghee Ko)
引言
混合现实(MR)将数字世界和虚拟世界融合在一起,实现了两者之间的无缝交互(Milgram和Kishino,1994年)。硬件和软件技术的快速发展促进了MR的多种应用,使其在建筑信息模型(BIM)(El Ammari和Hammad,2019年)、医疗领域(Hu等人,2019年)、服装销售(Yuan等人,2013年)、培训(Kaplan等人,2021年)、生产(Baroroh和Chu,2022年)以及检测(Munoz等人,2019年;Al-Sabbag等人,2022年;Kahn等人,2013年)等不同领域得到广泛应用。特别是制造业(Mourtzis等人,2021年;Wang等人,2023年;Lee等人,2011年;Bottani等人,2021年)和维护(Mourtzis等人,2020年)领域预计将从MR中获益最多。
MR的一个关键特性是它能够促进位于不同地点的用户之间的协作(Zhang等人,2023a;Sun等人,2023年)。在这种情况下,当用户佩戴智能眼镜时,可以最大化灵活性和性能,因为智能眼镜可以在保持双手自由操作的同时显示视觉信息。然而,基于MR的远程协作通常需要复杂的配置,包括摄像头和深度传感器,例如Microsoft Kinect和Intel RealSense。
基准标记常用于对齐远程空间和本地空间中的虚拟内容,但它们存在实际挑战。标记必须保持固定位置以保持虚拟空间的稳定性;如果标记移动或损坏,则需要手动重新校准。这些要求使得基于标记的设置在现实世界的协作环境中变得繁琐且易损坏。
如果能够检测到目标对象并在其上直接建立本地坐标系,就可以避免使用标记。如果系统可以直接检测到目标对象,那么可以从单个二维(2D)图像中获得唯一的6自由度(6-DoF)姿态(对于非对称对象)。通过反转这个姿态,可以在对象本身上建立一个稳定的本地坐标系。换句话说,对象自身的姿态提供了一个参考坐标系,消除了对任何基准标记的需求,并确保了无论相机视角如何都能保持一致性。
从图像中估计相机的6自由度姿态在计算机视觉领域已被广泛研究。虽然深度学习方法可以实现高精度(例如,使用2D图像关键点和透视n点(PnP)算法(Lepetit等人,2009年)),但在实际条件下它们往往表现不佳(Tremblay等人,2018年;Jiang等人,2023年)。实际上,光照或背景的变化会导致关键点检测不一致,从而降低姿态估计的准确性。
要使用PnP算法计算6自由度姿态,需要输入2D图像关键点与三维(3D)模型点之间的对应关系。在实际场景中,2D关键点的预测极易受到光照和背景条件变化的影响,导致关键点检测不一致。这种不一致性反过来又降低了6自由度姿态估计的准确性。
本文提出了一种新的方法,以提高从单个RGB图像中进行姿态估计的准确性。该方法将感兴趣区域-主成分分析(RoI-PCA)颜色空间增强技术集成到现有网络中,以确保目标对象颜色空间中的数据一致性。这是通过分析对象周围的RoI并通过PCA在该区域内减轻颜色变化来实现的。因此,可以从每张图像的该区域提取出对颜色变化更具鲁棒性的内在几何特征,从而提高姿态估计的准确性。所提出的姿态估计技术在一个多设备MR远程协作框架中实现,便于与各种设备(包括MR眼镜、智能手机和相机-投影仪系统)无缝集成。姿态估计准确性的提高使得MR框架能够在具有不同视角和光照条件的环境中支持远程协作。实验结果表明,所提出的MR框架适用于包括检测、培训、制造、维护和教育在内的多个领域,在这些领域中可以有效地利用MR技术。
总结来说,本文做出了两项关键贡献:
- •
我们引入了一种改进的、基于学习的6自由度姿态估计器,它对单目RGB输入应用了RoI-PCA颜色空间增强技术,在不同的光照和背景条件下显著提高了准确性。
- •
我们开发了一个多功能MR远程协作平台,该平台集成了我们的姿态估计器,并能在包括相机-投影仪设备、MR智能眼镜和标准个人电脑(PC)在内的多种设备上实时运行。
本文的其余部分结构如下:第2节回顾了基于深度学习的姿态估计和MR协作的先前工作;第3节详细介绍了我们的方法论;第4节展示了实验结果和系统演示;第5节总结了未来的研究方向。
相关研究
相关工作
文献回顾分为两部分:6自由度姿态估计和使用MR的远程协作。第一部分探讨了使用深度学习从图像中进行直接和间接姿态估计的技术方面。第二部分研究了基于MR的远程协作应用。
方法论
图1展示了所提出的基于MR的远程协作框架及其实现概览。在这个框架中,远程专家和本地工人虚拟地共享同一个目标对象。本地工人将场景的实时流传输给专家,专家可以对该对象进行注释或高亮显示部分内容。这些注释会立即发送回去,并在本地设备上显示,要么通过相机-投影仪系统投影到物理对象上,要么直接叠加显示。
结果与讨论
使用示例案例测试了所提出的方法,并对其性能进行了系统评估。实现是在运行Windows 10(64位)操作系统的台式PC上使用PyTorch进行的,该PC配备了Intel(R) Core(TM) i7-12700 CPU(3.60 GHz)、32 GB RAM、1.0 TB SSD和GeForce RTX 3080 Ti GPU。
该网络在基准数据集和自定义数据集上进行了500个时代的训练。批量大小设置为16,学习率最初设置为0.001,然后逐渐减小。
结论与未来工作
本文提出了一种基于学习的6自由度姿态估计方法,该方法使用区域聚焦的颜色增强(RoI-PCA)从单个RGB图像中提高准确性。这种技术在不改变网络架构的情况下,提高了目标对象在不同条件下的外观一致性。通过这种方式,它实现了更可靠的关键点检测和姿态计算,这是后续MR协作框架的基础。这项技术增强了
CRediT作者贡献声明
吴英英(Inyoung Oh):撰写 – 审稿与编辑、撰写 – 原稿、验证、方法论、形式分析。张吉桑(Gilsang Jang):撰写 – 审稿与编辑、撰写 – 原稿、调查、数据管理。宋镇浩(Jinho Song):撰写 – 审稿与编辑、撰写 – 原稿、数据管理、概念化。孙梦古(Moongu Son):撰写 – 原稿、软件开发。金大元(Daewoon Kim):撰写 – 审稿与编辑、撰写 – 原稿、验证、监督、形式分析。尹俊尚(Junsang Yun):撰写 –
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
致谢
这项工作部分得到了信息与通信技术规划与评估研究所(IITP)的支持,该研究所由科学与信息通信部(MSIT)资助,资助编号为2021-0-00315;同时得到了韩国技术进步院(KIAT)的支持,该机构由韩国政府(MOTIE)资助(RS-2025-02263945,工业创新HRD计划)。部分手稿的语法检查使用了ChatGPT4o。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号