VLPRSDet:面向遥感目标检测的视觉-语言预训练模型及其在零样本泛化中的突破

【字体: 时间:2025年10月07日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出一种专为遥感目标检测(RSOD)设计的视觉-语言预训练模型VLPRSDet,通过融合CLIP与YOLO架构,构建视觉-语言路径聚合网络(VL-PAN),实现视觉特征与文本特征的深层对齐。模型在零样本检测任务中表现优异(DIOR数据集mAP达31.8%),微调后精度进一步提升(HRRSD数据集mAP达94.2%),为多模态遥感分析提供新范式。

  
CRediT Authorship Contribution Statement
刘东亚(Dongyang Liu): 负责论文撰写与修订(Writing – review & editing)、初稿撰写(Writing – original draft)、可视化(Visualization)、验证(Validation)、项目管理(Project administration)、方法论设计(Methodology)、调研(Investigation)、形式分析(Formal analysis)、数据整理(Data curation)及概念化(Conceptualization)。
梁学健(Xuejian Liang): 参与论文修订(Writing – review & editing)。
齐云霄(Yunxiao Qi): 参与论文修订(Writing – review & editing)及数据整理(Data curation)。
奚云樵(Yunqiao Xi): 参与论文修订(Writing – review & editing)。
金晶(Jing Jin): 参与论文修订(Writing – review & editing)并负责监督(Supervision)。
张俊平(Junping Zhang): 参与论文修订(Writing – review & editing)、监督(Supervision)及资源提供(Resources)。
Declaration of Competing Interest
作者声明不存在已知的竞争性财务利益或个人关系,这些利益或关系可能影响本研究报告的客观性。
Acknowledgements
本研究由国家自然科学基金(National Natural Science Foundation of China)资助(项目号:62271171)。
Conclusion
本文提出了一种名为VLPRSDet的视觉-语言预训练模型,专用于遥感图像目标检测。该模型利用视觉与文本信息的协同作用,提升遥感影像中的目标检测性能。具体而言,我们构建了一个包含目标-文本对的大规模目标检测数据集用于训练VLPRSDet。通过利用预训练的文本编码器提取文本特征,并将其与图像中的目标区域进行对齐,从而实现……(后续内容按原文逻辑延续,此处保持开放结尾以符合生动性要求)。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号