《Applied System Innovation》:MixedPalletBoxes Dataset: A Synthetic Benchmark Dataset for Warehouse Applications
编辑推荐:
本文针对混合码垛算法缺乏标准化基准的现状,提出了MixedPalletBoxes合成数据集家族(含500–100,000条记录),通过开源Python脚本生成包含几何尺寸、材料属性、负载能力等多维度标注的箱体数据,并集成FastAPI工具实现动态订单模拟。实验表明该数据集能有效评估算法在可扩展性、适应性和性能波动性的表现,为仓库机器人解决方案提供透明可扩展的验证平台。
1. 引言
混合码垛作为现代仓储与机器人自动化系统的核心挑战,长期受限于缺乏真实、可公开获取的基准数据集。现有数据集如PackLib2和BED-BPP虽在几何可行性评估方面奠定基础,但存在静态实例集、动态订单模拟能力不足、操作约束覆盖有限等缺陷。本研究提出MixedPalletBoxes数据集家族,通过参数化生成框架整合几何尺寸(长宽高)、材料属性(如金属、塑料)、负载容量、环境耐受性(温度范围)及处理标志(易碎性、防水性等),旨在支持算法在可扩展性、适应性和性能波动性方面的系统化评估。
1.1. 研究目标与贡献
本研究通过构建兼具几何描述与操作属性的合成数据集,填补了现有基准在动态场景仿真与约束多样性方面的空白。其核心贡献包括:标准化数据生成流程确保跨规模参数稳定性(如箱体平均长度稳定于58.5–60.6 cm);丰富特征空间支持实际约束(如易碎品堆叠限制);通过FastAPI工具实现动态拣选列表生成,模拟日常仓库订单波动;所有数据集与生成代码开源发布,促进算法研究的可复现性与跨场景验证。
1.2. 现有基准数据集的局限性
传统数据集因固定实例结构难以反映仓库动态订单特性,限制了算法泛化能力评估。例如BED-BPP依赖预设场景,无法测试属性组合的鲁棒性;而部分生成器虽引入随机性,但缺乏属性间耦合机制。MixedPalletBoxes通过可控随机化与参数边界约束(如材料相关尺寸范围),避免了不切实际的属性组合,为算法在真实仓储条件下的适应性评估提供结构化基础。
2. 数据集构建与特征规范
数据集采用问题驱动的合成生成流程,基于Python 3.11.13脚本生成七种规模(500–100,000条记录)的静态实例库。每个箱体包含15项属性(表1),如尺寸、体积、材料类型、最大负载(77.2–88.2 kg)、堆叠性(>70%)等。生成过程中嵌入异常预防机制,通过材料依赖的参数范围确保物理合理性(如金属箱体厚度与耐温性关联)。统计显示各规模数据集的关键属性分布高度一致(表3),证实生成过程的稳定性。
2.1. 合成箱体生成流程
生成器以结构化随机抽样替代完全随机化,遵循工业常见约束设定参数边界(如温度耐受范围-10°C至50°C)。派生属性(如体积)由原始尺寸直接计算,避免逻辑冲突。附录A详述了参数抽样规则,例如易碎品比例控制在20.3%–24.8%。输出为Excel格式(boxes_db_****.xlsx),支持直接导入算法测试环境。
2.2. 箱体过滤API
配套FastAPI服务支持从SQLite数据库动态生成随机拣选列表,用户可通过HTTP端点按尺寸阈值或约束条件(如仅选取防水箱体)定制订单。该工具模拟仓库日常订单波动,涵盖轻型(20项)、典型(35项)、重型(50项)及溢出订单(100项)四种场景,为算法动态性能测试提供基础设施。
3. 实验评估
3.1. 基于合成拣选列表的多算法评估
以500项数据集为基础,对比六种算法:首次适应递减法(FFD)、极点法(EP)、 Guillotine切割法、分层货架法、遗传算法(GA)和禁忌搜索(TS)。测试平台为Google Colab(Python 3.11.13),托盘规格统一为1.2 m × 1.00 m × 0.85 m(容积1.02 m3)。性能指标包括托盘数量、容积利用率、箱体分布及运行时(表4)。
3.2. 结果
算法表现呈现显著差异:FFD在小订单(20项)中利用率超90%,但随订单增大性能下降;EP与分层策略因几何分割限制,利用率普遍偏低(32%–60%);GA在大订单中表现优异但计算成本高;TS因整合易碎性等约束,在中等以上订单中平衡性最佳。结果证实数据集能有效区分算法对几何异质性与约束复杂度的响应差异。
3.3. 算法行为解析
性能差异源于算法与数据集特性的交互:贪婪算法(如FFD)受限于几何多样性增长;元启发式算法(GA、TS)通过搜索策略适应约束结构,但牺牲时效性。数据集参数(如尺寸分布、约束比例)直接驱动算法行为分化,支持可解释的性能归因分析。
4. 讨论
数据集通过可控变异性揭示了算法对仓储环境的适应性边界。几何与约束的耦合设计凸显了上下文依赖性:通用算法在特定SKU分布下可能失效,而合成基准支持设施专用验证。当前框架未涵盖动态因素(如运动稳定性)与不规则形状,未来可扩展至多模态数据(如运动轨迹感知),增强机器人系统应用价值。
5. 结论
MixedPalletBoxes为混合码垛算法提供了可扩展、多属性标注的基准框架,其参数化生成机制保障了评估的透明性与可复现性。开源工具链支持动态场景仿真,助力算法在真实仓储条件下的鲁棒性优化。未来通过集成实际工业数据与动态约束,可进一步推动仓库自动化研究的实证创新。