面向自动驾驶实验室过程异常检测的多模态视觉数据集构建与分析

《Scientific Data》:A Visual Dataset for Anomaly Detection in Self-Driving Laboratories

【字体: 时间:2025年11月16日 来源:Scientific Data 6.9

编辑推荐:

  本刊推荐:为解决自动驾驶实验室(SDLs)中因过程不确定性和环境复杂性导致的异常检测难题,研究团队开展了基于第一人称视觉的异常检测数据集构建研究。该研究通过机械臂末端执行器摄像头采集了11个检查点、14个视角的1,671张图像和2,788个图文对,建立了包含五类异常标签的区域级标注体系。该数据集为视觉语言模型在实验过程异常监控、定位和归因分析任务提供了重要资源,对推动智能实验室安全运维具有显著意义。

  
在人工智能驱动科学发现的浪潮中,自动驾驶实验室(Self-Driving Laboratories, SDLs)正成为革新科学研究范式的关键基础设施。通过整合实验自动化、智能感知规划和高效人机协作,SDL能够大幅提升科研效率,尤其在化学合成4,5和材料发现6,7领域已展现出巨大潜力。然而,实验过程固有的复杂性、多样性和不确定性,使得对异常事件的实时检测成为保障实验室安全运行的核心挑战。当机械臂操作目标物体偏离预期位置或状态不符要求时,可能引发连锁性操作失败;实验过程中的溅洒、物体坠落等故障更可能危及实验进程甚至实验室安全。
目前,面向科学实验室过程异常检测的专用数据集尚属空白。现有研究多集中于工业缺陷检测、异常行为识别等特定场景,其数据集如C-VAD、MVTec AD 2等缺乏科学实验所需的语义上下文和场景多样性。针对这一瓶颈,研究团队在《Scientific Data》发表了题为"A Visual Dataset for Anomaly Detection in Self-Driving Laboratories"的研究论文,构建了首个专注于自动驾驶科学实验室过程异常检测的多模态视觉数据集。
研究方法核心包括四个技术环节:首先设计了基于聚二甲基硅氧烷(Polydimethylsiloxane, PDMS)合成的全自动化实验工作流,通过移动Wooschrobot和固定Panda机械臂的末端执行器摄像头采集第一人称视觉数据;其次采用检查点选择与元步骤分解策略,将工作流划分为11个关键检查点对应27个元步骤;第三建立了五类异常分类体系(物体缺失、物体不可操作、转移失败、物体未达标、环境干扰);最后通过混合标注流程(GPT-4o生成初步描述+七名领域专家修订+四轮人工边界框标注)确保数据质量。
实验工作流设计
研究团队构建了包含材料存储区、合成区和产品输出区的三区实验室布局,部署了搭载RealSense摄像头的移动与固定机械臂系统。通过图3(a)所示的PDMS合成工作流示意图,明确了每个元步骤的位置、环境和操作规程,为异常场景的系统性定义提供结构化框架。
多视角数据采集
基于图4所示的14个预定义视角(偏航角-90°至+90°,俯仰角-90°至+45°),研究人员从机械臂第一人称视角采集了1,671张图像。移动机器人覆盖全部11个检查点,固定机器人覆盖其工作空间内的6个检查点,形成了包含不同距离(近/远)和视角类型的多样化样本分布。
数据分布特征
统计显示数据集包含2,788个图文对(异常1,783例,正常1,005例),移动机械臂采集样本占73.2%。图5的热力图揭示了异常样本在检查点间的分布规律,其中检查点3和8样本密度最高。图6(c)显示五类异常均有充分样本覆盖,但不同检查点的风险分布存在差异,反映了实验工作流中操作风险的不均匀性。
多维度技术验证
语义一致性评估中,全体图文对的CLIPScore达0.692,其中近距离视角(0.699)优于远距离视角(0.683),俯视与水平视角优于仰视视角。在上下文感知异常检测任务中,Qwen-VL-72B模型的总体检测成功率达74.7%,但90°侧视视角因遮挡严重导致性能显著下降(图9)。比较研究显示固定机械臂数据检测成功率(75.6%)略高于移动机械臂(74.1%),验证了设备类型对检测效果的影响。
边界框标注质量
通过四轮人工标注流程,实现了异常区域边界框与语义描述的高度对齐。首轮标注的交叉验证显示平均交并比(Intersection over Union, IoU)超过0.85。图10示例展示了边界框与描述文本的精确对应,为视觉定位(visual grounding)和接地描述生成(grounded captioning)任务提供可靠支撑。
研究结论表明,该数据集通过系统化的多模态标注框架,解决了自动驾驶实验室场景下异常检测的数据稀缺问题。其价值体现在三个方面:一是支持图像-文本分类、异常类型识别、异常定位等多元任务;二是为基于视觉语言模型(如GPT-4V、Qwen-VL)的上下文感知异常检测提供基准;三是通过结构化元步骤定义支持异常归因分析和响应策略建模。数据集已公开于Figshare和GitHub平台,为智能实验室安全监控系统的开发提供了重要基础设施。
该研究的创新性在于将第一人称视觉感知与实验过程语义上下文深度融合,突破了传统全局监控的局限性。通过精心设计的检查点布局和多视角采集策略,数据集有效捕捉了真实实验室环境中的空间复杂性和操作动态性。未来,该资源可扩展至更多实验场景,推动自动驾驶实验室向更安全、更智能的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号