《Computer Vision and Image Understanding》:Boundary-aware semantic segmentation for ice hockey rink registration
编辑推荐:
准确注册冰球场地是体育分析的关键,现有方法因忽略边界导致同构估计不足。本文提出边界增强的语义分割框架,通过新增边界类别、设计边界感知损失、动态调整类别权重及自蒸馏策略,显著提升NHL和SHL数据集的IoU性能。
作者:王志博、阿米尔·纳泽米、斯蒂芬妮·刘、西里莎·兰巴特拉、陈宇豪、大卫·克劳西
加拿大安大略省滑铁卢大学系统设计工程系,视觉与图像处理实验室,滑铁卢N2L 3G1
摘要
从广播视频帧中准确注册冰球场对于体育分析至关重要,因为它将球场模板和广播帧对齐到一个统一的坐标系统中,以便进行一致的球员分析。现有的方法,包括基于关键点和分割的方法,由于对球场边界的关注不足,往往会产生次优的仿射估计结果。为了解决这个问题,我们提出了一个基于分割的框架,该框架明确地将球场边界作为一个新的分割类别引入。为了进一步提高准确性,我们引入了三个组件来增强边界意识:(i) 一种关注边界的损失函数,以加强边界表示;(ii) 在仿射估计中采用动态的类别加权机制,以强调信息丰富的区域;(iii) 一种自蒸馏策略,以丰富特征多样性。在NHL和SHL数据集上的实验表明,我们的方法显著优于基线方法,在NHL数据集的IoUpart和IoUwhole上分别提高了和,在SHL数据集上分别提高了。消融研究进一步证实了每个组件的贡献,为球场注册建立了一个稳健的解决方案,并为下游的体育视觉任务奠定了坚实的基础。
引言
球场注册,或者说球场模板与广播帧之间的仿射估计,在冰球比赛的分析和理解中起着至关重要的作用(Ghanem等人,2012年)。通过确定将模板映射到观察到的帧的投影矩阵,球场注册能够定位广播片段中的所有可见元素,从而在球员的局部坐标系统和球场的全局坐标系统之间建立桥梁。这种几何上下文对于一系列下游任务来说是不可或缺的,包括球员跟踪(Prakash等人,2024年)、自动事件检测(Nsiempba等人,2025年)和球队策略分析(Staunton和Bj?rklund,2023年)。
由于其重要性,已经探索了许多球场注册方法。早期的方法通常采用基于关键点的技术,这些技术涉及从广播帧中提取显著的关键点并将它们与球场模板进行匹配(Gupta等人,2011年;Puwein等人,2011年;Chen等人,2018年)。尽管在某种程度上有效,但这些方法受到限制,因为关键点只能提供稀疏和不完整的几何信息,不足以实现稳健的注册。为了解决这些缺点,提出了基于语义分割的方法(Homayounfar等人,2017年;Zhang和Izquierdo,2023年)。这些方法首先对广播帧进行分割,以捕获整个图像的密集结构信息,然后将其与模板对齐以计算仿射矩阵。优势显而易见:通过考虑每个像素而不仅仅是一组稀疏的关键点,语义分割提供了更丰富的对齐特征。实际上,现有研究表明,基于分割的方法通常比基于关键点的方法表现得更好(Theiner和Ewerth,2023年;Somers等人,2024年;Fan等人,2025年)。
尽管基于分割的方法在许多场景中显示出了有希望的结果,但它们也存在固有的局限性。传统的基于语义分割的方法主要优化预测与真实值之间的整体像素级重叠。由于边界像素只占球场的一小部分,因此它们的分割质量通常不如其他区域。在冰球比赛中,这一限制尤为关键,因为球场边界在语义理解和空间推理中起着核心作用。
此外,如图1所示,由于冰球运动员的移动,运动员与球场之间的遮挡在广播视图中经常发生,这使得提取球场信息变得更加困难,因为球场内的重要视觉线索(例如,争球点的位置)可能会被遮挡。在这种情况下,球场边界起着关键作用。图1还显示,球场边界(用蓝色虚线突出显示)比球场的其他部分更可见。与内部组件不同,由于它们在帧中的存在较大,它们不太可能被完全遮挡,因此是更可靠的几何信息来源。
受到这些观察的启发,我们提出了一个基于语义分割的球场注册框架,该框架明确增强了边界建模,从而提高了球场注册的准确性。具体来说,我们引入了球场边界作为一个额外的分割类别,以改善和加强冰球比赛的上下文信息。此外,我们结合了三个组件来更好地利用边界信息:(i) 一种关注边界的损失函数,以强调边界质量;(ii) 在仿射估计阶段采用动态加权机制,以平衡类别贡献;(iii) 一种自蒸馏策略,以丰富特征多样性。
为了评估所提出方法的有效性,高质量的数据集是必不可少的。然而,据我们所知,目前还没有针对冰球比赛的此类任务发布过任何数据集。尽管现有的关键点数据集可以用来计算仿射矩阵,但它们的质量往往不尽如人意。例如,虽然HockeyRink数据集(Houshmand Sarkhoosh等人,2025年)提供了高质量的广播帧,但提供的关键点注释有时不足以计算出准确的仿射矩阵。为了解决这个问题,我们对HockeyRink数据集进行了改进和重新注释。具体来说,我们使用仿射估计的性能作为质量标准,并迭代地改进或添加注释,直到可视化结果足够精确,即投影的模板几乎与广播帧完美重叠。
总之,本文的主要贡献包括:
- •
我们通过在球场注册任务中明确引入球场边界作为一个额外的分割类别,加强和改善了冰球比赛的上下文信息。实验结果表明,将球场边界作为一个新的类别可以提高球场注册模型的性能(例如,在NHL数据集上的IoUpart提高了
)。
•我们进一步将边界损失、动态加权机制和自蒸馏框架整合到训练流程中,以更好地利用边界信息。在NHL数据集上的实验验证了这些组件能够持续提升模型性能(例如,在NHL数据集上的IoUpart提高了
)。
•基于现有的HockeyRink数据集(Houshmand Sarkhoosh等人,2025年)的广播帧,我们为每一帧标注了准确的仿射矩阵,并将其作为第一个公开可用的冰球仿射数据集发布,称为SHL。实验表明,即使没有进行广泛的训练或微调,我们的方法在SHL数据集上也表现出了优越的性能。
章节片段
仿射估计
作为计算机视觉中的一个基本任务,仿射估计旨在使用投影变换矩阵将一个平面扭曲到另一个平面上。换句话说,它弥合了从不同视角捕获的同一对象的外观差异。传统的仿射估计方法基于使用SIFT(Lowe,2004年)和ORB(Rublee等人,2011年)等方法检测和匹配图像对之间的特征,然后通过RANSAC等算法计算仿射矩阵。
方法
在本节中,我们首先介绍了所提出模型的整体架构,并正式定义了冰球场注册任务。然后,我们详细介绍了旨在提高模型性能的策略。具体来说,我们首先明确地将球场边界作为一个额外的分割类别引入。在此基础上,我们进一步整合了三个组件来更好地利用边界信息:一个关注边界的损失函数、一个动态的类别加权机制,以及
实验
在本节中,我们描述了用于训练和测试我们模型的数据集、实验环境和超参数设置。然后,我们通过定量指标和定性可视化展示了所提出方法的总体性能。最后,我们进行了详细的消融研究,以证明集成到我们框架中的每个单独组件的有效性和贡献。
结论
在这项工作中,我们提出了一个用于冰球场注册的框架,该框架整合了语义分割、仿射估计和细化模块。为了改善上下文信息,我们引入了球场边界作为一个额外的分割类别。此外,为了更好地利用边界信息,我们整合了三个关键组件:(i) 一个关注边界的损失函数,强调边界类别;(ii) 一个动态的类别加权机制,优先考虑最重要的
CRediT作者贡献声明
王志博:撰写——原始草稿、可视化、软件、方法论、数据策划、概念化。阿米尔·纳泽米:撰写——审阅与编辑、方法论、数据策划、概念化。斯蒂芬妮·刘:数据策划。西里莎·兰巴特拉:撰写——审阅与编辑、监督。陈宇豪:撰写——审阅与编辑、方法论、概念化。大卫·克劳西:监督、资金获取。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。