基于大语言模型引导的视觉-光谱融合零样本方法:实现水果时序图像智能分类与品质监测新突破
【字体:
大
中
小
】
时间:2025年09月26日
来源:Neural Networks 6.3
编辑推荐:
本综述提出了一种创新的零样本多模态框架(LLM-Led Vision-Spectral Fusion),通过大语言模型(LLM)生成专家级语义描述,引导GLIP实现零样本目标检测和SAM完成精准分割,融合视觉与光谱数据,显著提升水果品质时序监测的准确性。在牛油果新鲜度时序-光谱数据集(AFTS)上验证显示,均方误差(MSE)降低33%,平均绝对误差(MAE)降低17%,为智慧农业和食品质量监测提供了通用性强的新方案。
时序相关图像分类代表了计算机视觉中一个独特且充满挑战的分支。它专注于对那些随时间发生显著视觉变化的图像进行分类,其中时间上下文对准确解读至关重要[Homenda等人,2024]。
在更广泛的时间序列数据分类领域中,研究人员提出了一种将时间序列转化为二维图像并利用卷积神经网络进行处理的模型。
数据采集: 本研究涵盖了对150个牛油果的全面数据收集过程。每个水果均被分配唯一标识符,并每日使用分辨率为1920×1080像素的高清相机进行拍摄。为确保每个牛油果的完整表征,从三个不同角度捕获图像。此每日成像过程对每个水果持续进行,直到腐败迹象变得明显,此时受影响的牛油果被从研究中移除。
所提出的方法代表了时序相关图像分类领域的一项进展。传统方法通常直接将图像输入深度神经网络(DNN)进行标签分类。然而,在时序相关图像分类的背景下,特定对象特征的识别和学习至关重要。传统方法的局限性在于其无法过滤背景信息,导致模型学习了不相关特征。
模型组件: 所提出的方法利用两种主要模型类型:一个大语言模型(LLM)和一个视觉语言模型(VLM)。具体而言,采用GPT-4o作为LLM,从原始输入数据生成结构化的文本知识,有效捕获语义关系和高层次上下文信息。VLM组件结合了GLIP(将文本提示定位到特定视觉区域)和SAM(用于精确分割GLIP识别的感兴趣区域)。GLIP和SAM共同构成了一个集成的视觉处理流水线。
本文提出了一种用于时序相关图像分类的方法。通过集成先进深度学习技术,如LLMs、GLIP模型和Segment Anything模型(SAM),以及视觉和光谱数据的多模态融合,所提出的方法为分类时序相关图像提供了一个全面的解决方案。该方法的优势在于其多方面的策略,结合了专家知识生成、精确的目标检测和分割,以及深入的(分析)。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号