通过基于大语言模型的训练数据合成来提升对象检测模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《INTERNATIONAL JOURNAL OF COMPUTER VISION》：Improving Object Detection Models via LLM-Based Training Data Synthesis

【字体：大中小】 时间：2025年09月27日 来源：INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐：

　　生成高质量目标检测训练数据的新框架，通过LLMs构建多样化场景和系统合成数据，结合CLIP图像布局质量评估（CILQM）和混合增强策略（SRMix），有效提升Transformer和CNN模型性能。

摘要

尽管深度生成模型取得了显著进展，但为对象检测生成高质量训练数据仍然是一项具有挑战性的任务，这主要是由于精确注释的复杂要求以及场景的多样性。为了解决这一挑战，我们提出了一种利用大型语言模型（LLMs）生成高质量训练数据的新框架。首先，我们介绍了布局增强与多样化图像合成框架（LE-DIS），该框架利用LLMs创建多样化的目标场景并系统地构建合成数据。接下来，我们提出了一种基于CLIP的图像布局质量度量标准（CILQM），用于评估合成数据的全局一致性和类别对齐性，从而确保输出的高质量。最后，我们采用了一种基于混合策略（SRMix）的方法，将合成数据与真实数据结合，以生成多样化的训练样本，从而提高模型的稳定性和适应性。在COCO基准测试上的广泛实验表明，我们的方法显著提升了基于Transformer和CNN的对象检测模型的性能，凸显了深度生成模型在为对象检测任务合成高质量数据集方面的潜力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号