基于文本增强课程监督对比学习的食品图像识别方法(TEC-SCL)及其在营养健康分析中的应用
《Neurocomputing》:Text enhanced curriculum supervised contrastive learning for food image recognition
【字体:
大
中
小
】
时间:2025年10月20日
来源:Neurocomputing 6.5
编辑推荐:
本文提出文本增强课程监督对比学习框架(TEC-SCL),通过视觉-语言模型(VLM)生成语义描述并与视觉特征跨模态融合,结合课程调度策略动态优化对比对,显著提升食品图像在细粒度识别(FGVC)中的性能,为智能膳食监测与营养分析提供新思路。
食品图像识别面临高类内差异、细微类间区分和偏斜层次分类体系的挑战。传统方法难以有效捕捉细粒度烹饪语义,而主流对比学习框架对渐进训练中特征表示动态演化的适应性有限。
本文提出文本增强课程监督对比学习(TEC-SCL),这是一种新颖的多模态学习框架,通过跨模态注意力融合将视觉-语言模型(VLM)生成的语义描述与视觉特征协同整合。此外,我们引入基于课程的调度器,通过优先处理困难负样本动态优化对比对。
在ETH Food-101、ISIA Food-500和UEC-Food 256数据集上的广泛实验表明,我们的方法实现了最先进的性能,在细粒度检索中获得了最高的Top-1准确率。该框架弥合了通用视觉模型与特定领域食品图像识别之间的差距,为智能食品系统提供了重要潜力。
本文证明了文本增强与基于课程的对比学习的协同整合显著推进了食品图像识别,有效克服了细粒度分类瓶颈。提出的TEC-SCL框架不仅在主流基准测试中实现了SOTA性能,还通过判别性特征空间优化揭示了文本引导相似性矩阵在解决视觉模糊类别中的有效性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号