《Image and Vision Computing》:MITS: A large-scale multimodal benchmark dataset for Intelligent Traffic Surveillance
编辑推荐:
大规模多模态ITS数据集MITS构建及LMM性能提升研究。通过采集170,400张真实交通监控图像,标注8大类24子类物体和事件,并生成5百万高质量指令跟随VQA对,有效解决了智能交通监控系统存在的多模态适配性差、场景泛化能力弱等问题。实验表明,在MITS上微调的LLaVA-1.5-7B、Qwen2-VL等模型在目标检测、事件推理等5项核心任务中性能分别提升83.2%、58.6%等显著数值。
赵凯凯|刘兆祥|王鹏|王鑫|马志成|徐亚军|张文静|南一冰|王凯|连世国
中国联合通信数据智能部,北京,100033,中华人民共和国
摘要
通用领域的大型多模态模型(LMMs)在各种图像文本任务中取得了显著进展。然而,由于缺乏专门的多模态数据集,它们在智能交通监控(ITS)领域的表现仍然有限。为了解决这一差距,我们推出了
MITS(多模态智能交通监控),这是首个专为ITS设计的大规模多模态基准数据集。MITS包含了
170,400张独立收集的真实世界ITS图像,这些图像来自交通监控摄像头,并标注了
八个主要类别和
24个子类别的ITS特定对象和事件,涵盖了多样的环境条件。此外,通过系统化的数据生成流程,我们生成了
高质量的图像描述和
500万对遵循指令的视觉问答对,解决了
五个关键的ITS任务:对象和事件识别、对象计数、对象定位、背景分析以及事件推理。为了证明MITS的有效性,我们在这个数据集上对主流LMMs进行了微调,从而推动了ITS特定应用程序的开发。实验结果表明,MITS显著提升了LMM在ITS应用中的性能,使LLaVA-1.5的性能从0.494提高到了0.905(+83.2%),LLaVA-1.6从0.678提高到了0.921(+35.8%),Qwen2-VL从0.584提高到了0.926(+58.6%),Qwen2.5-VL从0.732提高到了0.930(+27.0%)。我们以
开源的形式发布了该数据集、代码和模型,为推进ITS和LMM研究提供了高价值的资源。
引言
智能交通监控(ITS)系统[1]通过监测、分析和管理现实世界的交通状况来提高交通效率和安全性。由人工智能驱动的视觉算法在ITS中发挥着关键作用,通过处理监控图像来实现自动化的交通分析和决策。传统上,大多数ITS应用依赖于基于卷积和循环网络的“小型”模型来完成图像分类、对象检测、跟踪和分割等任务[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]。
尽管这些小型模型在受限条件下在特定任务中取得了成功,但它们存在几个关键限制。首先,它们的计算能力限制了它们在复杂交通环境中的鲁棒性[11]、[12]。其次,它们的识别能力仅限于预定义的有限类别,严重限制了它们的可扩展性。第三,由于泛化能力有限,它们通常需要针对新任务或场景进行重新训练。最后,作为单模态模型,它们缺乏高效的多模态交互能力,进一步限制了它们的应用范围。这些限制严重阻碍了现实世界ITS系统中更高层次智能的发展。
相比之下,大型多模态模型(LMMs),特别是大型视觉语言模型[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]、[29]、[30]、[31]、[32],具有更强的计算能力、增强的识别和理解能力、灵活的部署和交互机制、强大的零样本泛化能力以及高效的可扩展性。虽然通用领域的LMMs[13]、[14]、[15]、[16]表现出显著的适应性,但在医疗成像[17]、[18]、[33]、[34]、[35]、[36]和自动驾驶[19]、[20]、[21]等垂直领域中,往往需要特定领域的模型。同样,直接将通用LMMs应用于ITS任务通常会导致性能不佳。如图1所示,像LLaVA和Qwen2-VL这样的通用模型经常会出现识别、计数和定位错误,突显了通用领域LMMs的局限性,并强调了领域适应的必要性。这些问题源于ITS中独特的场景变化和固有的语义对齐挑战[17]、[20],这些因素限制了通用模型的有效性。
据我们所知,目前还没有专门为ITS开发的LMMs,主要是因为缺乏高质量、特定领域的遵循指令的数据。为了填补这一空白,我们推出了MITS(多模态智能交通监控),这是首个专为ITS设计的大规模多模态基准数据集。MITS包含了170,400张独立收集的真实世界ITS图像,配有高质量的描述,以及500万对遵循指令的视觉问答(VQA)对,从而实现了对ITS应用的全面评估和多模态学习的推进。
我们的主要贡献总结如下:
1. 大规模ITS多模态数据集。我们推出了MITS,这是首个为ITS量身定制的大规模多模态基准数据集。具体来说,(1)我们从真实世界的ITS摄像头收集了170,400张图像,并对这些图像进行了分类和检测的标注,涵盖了八个类别和24个子类别的对象和事件。鉴于获取道路监控摄像头数据的固有挑战,收集和整理这170,400张ITS图像本身就对ITS研究和应用做出了重要贡献。(2)我们开发了一个多模态数据生成流程,生成了高质量的图像描述和500万对遵循指令的VQA对,解决了五个关键的ITS任务:对象和事件识别、对象计数、对象定位、背景分析以及事件推理。MITS数据集为未来ITS领域的多模态学习研究提供了基础资源。
2. ITS特定模型的适应和评估。我们在MITS上对最先进的多模态模型进行了微调,使其适应ITS特定应用。广泛的实验表明,MITS的有效性显著提高:LLaVA-1.5-7B的性能提高了83.2%,LLaVA-1.6-7B提高了35.8%,Qwen2-VL-7B提高了58.6%,Qwen2.5-VL-7B提高了27.0%,Qwen2.5-VL-3B提高了56.4%。
3. 开源。我们公开发布了数据集、代码和微调后的LMMs,以促进ITS特定多模态学习和评估的进一步研究和发展。该数据集为ITS和LMM社区带来了巨大的价值。
相关工作
相关工作
据我们所知,目前还没有专门为ITS领域开发的多模态模型或多模态数据集。因此,本节首先回顾了在ITS中使用的基于深度学习的小型模型和数据集。接下来,我们讨论了ITS与自动驾驶(AD)之间的关键差异,然后概述了与AD相关的模型和数据集。最后,我们分析了其他专业领域中的LMMs和多模态数据集,以突出ITS特定多模态学习的差距。表1
MITS基准
本节全面介绍了提出的MITS基准。第3.1节介绍了从真实世界监控摄像头收集的源图像及其统计信息。第3.2节描述了MITS数据集的构建流程。第3.3节对构建的MITS数据集进行了统计分析。最后,第3.4节介绍了MITS基准中使用的评估指标。
实验
在本节中,我们对MITS数据集进行了全面实验,以验证其在提升ITS场景下模型识别和理解能力方面的有效性和价值。
结论
为了解决通用领域LMMs在ITS应用中的性能下降问题,我们推出了MITS,其中包含了170,400张具有描述的ITS特定图像和超过500万对VQA对。广泛的实验表明,当对最先进的LMMs进行微调时,MITS能够显著提升性能(27.0%–83.2%),使其成为(1)ITS应用的变革性资源,以及(2)垂直领域LMM适应的开创性案例研究。未来,我们计划
CRediT作者贡献声明
赵凯凯:撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、验证、软件开发、项目管理、方法论、调查、形式分析、数据整理。刘兆祥:撰写 – 审稿与编辑、监督、概念化。王鹏:资源获取、资金筹集。王鑫:撰写 – 审稿与编辑、数据整理。马志成:数据整理。徐亚军:数据整理。张文静:撰写 – 审稿与编辑、数据整理。南一冰:数据整理。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。