面向实验室自动化的化学实验仪器图像数据集:涵盖25类设备的真实场景检测
《Scientific Data》:Real-world chemistry lab image dataset for equipment recognition across 25 apparatus categories
【字体:
大
中
小
】
时间:2025年11月07日
来源:Scientific Data 6.9
编辑推荐:
本刊推荐:为解决化学实验室中设备检测面临的透明材料、重叠遮挡等挑战,研究团队构建了包含4,599张真实场景图像的数据集,覆盖25类常用化学仪器。该数据集通过多设备采集、边界框标注(Bounding Box Regression)和预处理技术,支持YOLO系列及RF-DETR等模型训练,最高mAP@50达0.992。该资源为实验室自动化、安全监控及库存管理提供了关键数据基础。
在现代化化学实验室中,烧杯、锥形瓶、滴定管等仪器的精准识别是实现自动化操作和安全监控的核心挑战。由于玻璃材质的透明特性、仪器重叠摆放以及复杂光照环境等因素,传统计算机视觉模型往往难以实现高精度检测。尽管已有研究尝试构建专用数据集,但多数存在类别覆盖有限、场景单一等问题,无法满足真实实验室环境的多样性需求。
为解决这一瓶颈,来自孟加拉国United International University的Md Sakhawat Hossain团队在《Scientific Data》发表了题为“Real-world chemistry lab image dataset for equipment recognition across 25 apparatus categories”的研究论文。该研究构建了目前最全面的化学实验室仪器图像数据集,包含4,599张在真实场景下采集的图像,涵盖25类常见设备,为开发鲁棒的物体检测模型提供了重要资源。
研究团队采用多设备采集策略,使用四款不同规格的智能手机(包括Samsung Galaxy A05s、OnePlus 9R等)在孟加拉国两所高校的生化实验室内进行图像采集。这种设计有效引入了设备间的分辨率、光照和视角差异,增强了数据集的多样性。所有图像均通过Roboflow平台进行边界框回归(Bounding Box Regression)标注,每个标注包含中心坐标(bx, by)、宽度(bw)、高度(bh)和类别信息。
在数据预处理阶段,团队采用自动定向(Auto-Orient)和统一缩放至640×640像素的操作,确保图像格式标准化。数据集按70:20:10的比例随机划分为训练集、验证集和测试集,避免因数据分布偏差影响模型泛化能力。
技术验证与模型性能
研究团队使用七种前沿物体检测模型进行基准测试,包括YOLOv11、YOLOv9、RF-DETR等。所有模型均表现出色,mAP@50(mean Average Precision at 50% IoU)均超过0.9。其中RF-DETR以0.992的mAP@50位居榜首,YOLOv11以0.987紧随其后。混淆矩阵和F1-置信度曲线显示,模型对透明仪器(如烧杯、锥形瓶)和细小设备(如移液管)均保持高识别精度。
数据集结构与可访问性
数据集以YOLO和COCO两种格式发布,包含图像文件夹和标注文件。元数据文件(metadata.csv)详细记录了每张图像的设备来源、边界框坐标和类别信息。所有数据可通过Figshare平台公开获取,支持实验室自动化系统开发、安全监控算法优化等应用。
研究意义与展望
该数据集突破了现有资源在类别多样性和真实场景覆盖方面的局限。通过引入多设备采集策略和复杂环境因素(如遮挡、光照变化),显著提升了模型在真实实验室条件下的适应性。未来可进一步扩展至动态场景检测、人机交互分析等领域,为智能实验室建设提供核心数据支撑。
研究结果表明,该数据集不仅能有效支持化学实验室仪器的精准识别,还为跨领域物体检测任务提供了可借鉴的构建范式。通过公开数据集和基准模型,团队推动了实验室自动化研究的可重复性发展,为AI驱动的新型科研范式奠定了坚实基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号