编辑推荐:
在视频理解领域,多数研究聚焦单一视角。为解决该问题,研究人员开展了以自我中心(egocentric)和外部中心(exocentric)视角联合学习为主题的研究。结果是梳理了相关数据集和应用。这对多视图建模及视频理解意义重大。
在日常生活中,我们常常从多个角度观察世界。比如看自行车维修视频,一会儿是贴近手部操作的第一人称视角,能清晰看到手与工具、零件的互动;一会儿又切换到第三人称视角,了解整个维修场景的环境布局。然而,在人工智能(AI)的视频理解领域,情况却并非如此。长久以来,大多数研究只专注于单一视角,要么是第三人称的外部中心(exocentric)视角,要么是第一人称的自我中心(egocentric)视角。这就好比一个人只用一只眼睛看世界,总是会错过很多重要信息。只研究外部中心视角的算法,在相关场景下表现尚可,但面对自我中心视角的场景时,却存在明显不足。而且,很少有研究尝试同步探索这两种视角,可实际上,外部中心视角的视频里包含着许多能帮助理解自我中心视角的关键线索。
为了填补这一研究空白,推动 AI 更全面、深入地理解人类活动,相关研究人员开展了自我中心和外部中心视角联合学习的研究。他们对结合两种视角的相关工作进行了全面梳理,详细分析了包含配对视角的数据集,探讨了现有方法在不同应用中的表现。研究发现,通过联合建模这两种视角,可以有效利用它们的互补信息,提升对人类技能学习和场景理解的能力。这一研究成果对于视频理解领域意义非凡,特别是在多视图建模至关重要的当下,为开发下一代 AI 智能体提供了新的思路和方向,相关成果发表在《Computer Vision and Image Understanding》。
研究人员在开展此项研究时,主要运用了以下关键技术方法:对已有的包含自我中心和外部中心配对视角的数据集进行收集与整理,这些数据集为后续研究提供了基础数据支撑;对现有的关于两种视角联合建模的研究方法进行归纳总结,分析不同方法在各种任务中的优势与不足。
数据集研究
研究人员发现,已有多个数据集包含配对的自我中心和外部中心视角,如 Kwon 等人在 2021 年提出的数据集、la Torre 等人在 2009 年提出的数据集等。此外,还有一些研究涉及 “混合” 视角,Zhang 等人在 2022 年更是从 3D 视角捕捉自我中心交互。这些数据集的存在为后续的研究提供了丰富的素材。
现有方法研究
早期已有研究探索了联合关联自我中心和外部中心视觉的任务。自我中心视觉聚焦于以佩戴相机者为中心的线索,外部中心视觉则关注整个场景中主体更广阔的视角。通过结合两种视角的互补信号,能够更有效地学习人类技能。现有研究在动作识别、跟踪、生成等多个任务中探索了联合建模的应用,虽然取得了一定进展,但仍面临诸多挑战。
研究结论表明,自我中心和外部中心视角联合学习是一个具有潜力的研究方向。大规模数据集的发布为该领域带来了新的机遇,但同时也伴随着新的挑战,如在识别、动作识别、跟踪、生成等方面仍需进一步优化。这一研究为视频理解领域打开了新的大门,有助于推动多视图建模的发展,让 AI 能够像人类一样从多个视角理解世界,在增强现实(AR)、机器人等领域具有广阔的应用前景。未来的研究可以朝着更高效的联合建模方法、更精准的任务识别以及更广泛的应用拓展等方向展开,不断挖掘这一领域的潜力,为 AI 技术的发展注入新的活力。