基于声音与RGB图像多模态特征融合的智能垃圾桶原型开发及其在垃圾分类中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月19日 来源：Waste Management 7.1

编辑推荐：

　　为解决传统垃圾分类方法效率低、成本高的问题，台湾研究团队开发了一种基于多模态深度学习（MDLM）的智能垃圾桶（IWB）原型，整合声音信号（MFCCs）与RGB图像（ResNet-101）特征，显著提升分类准确率至90%以上，为低成本自动化垃圾分类提供了创新方案。

研究背景与意义

垃圾分类是推动循环经济和减少环境负担的关键环节，但传统人工分拣效率低下且成本高昂。尽管基于视觉的深度学习算法（如CNN）和光谱技术（如NIR、X射线）已应用于垃圾识别，但其高昂成本限制了普及。声音信号（如MFCCs）为材料识别提供了新思路，但单一模态方法难以区分视觉或声学特征相似的垃圾（如PET与聚丙烯）。多模态深度学习（MDLM）通过融合互补数据（如图像与声音）有望突破这一瓶颈，但相关研究不足。

研究方法与技术

台湾的研究团队开发了智能垃圾桶（IWB）原型，结合TensorFlow和树莓派4硬件，构建了台湾可回收垃圾声音-图像数据集（TRMSID）。声音数据通过MFCCs转换，由LSTM网络提取特征；RGB图像通过ResNet-101处理。采用特征级融合策略将两类数据拼接，通过MDLM模型分类，控制伺服电机和旋转板实现自动分拣。

研究结果

单模态模型性能对比：仅使用声音的LSTM模型准确率达90%，优于仅用图像的ResNet-101，表明声音模态在垃圾识别中更具优势。
多模态融合效果：MDLM模型通过融合两类数据，进一步提升了分类准确率，验证了多模态互补性。
实际应用测试：IWB原型在真实环境中成功分拣垃圾，证实了MDLM的实用性和鲁棒性。

结论与讨论

该研究首次将声音与RGB图像多模态融合应用于垃圾分类，开发的IWB原型兼具低成本与高效率，为非工业场景（如家庭、公共场所）提供了可行解决方案。未来可通过扩充图像数据集优化MDLM性能。研究由台湾科技部资助，成果发表于《Waste Management》，为循环经济的技术创新提供了重要参考。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号