
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于文本语义引导的多退化场景红外与可见光图像细节调控融合框架DGTF
【字体: 大 中 小 】 时间:2025年06月16日 来源:Optics & Laser Technology 4.6
编辑推荐:
针对多退化场景下红外与可见光图像融合中细节信息易丢失的难题,研究人员提出Degradation-Text Fusion(DGTF)框架,通过级联退化文本、目标文本与掩模实现细节感知调控,并构建包含7种极端场景的MTS数据集。实验表明,DGTF在无文本引导时仍显著优于现有方法,且细节调控融合结果有效提升高级视觉任务性能,为复杂环境下的多模态图像融合提供新范式。
在复杂环境下的红外与可见光图像融合领域,多退化场景(如雨雪、雾霾、低光照等)导致的图像质量下降和目标细节丢失一直是棘手难题。传统方法试图设计通用融合算法,却因退化类型复杂性和处理需求冲突而效果受限。更棘手的是,现有语义引导方法如Text-IF虽能处理退化,却在融合过程中牺牲关键目标细节——例如雨雾场景中行人轮廓模糊、热成像噪声掩盖目标等问题,直接影响后续目标检测等高级视觉任务性能。
北京信息科技大学的研究团队在《Optics》发表的研究中,创新性提出Degradation-Text Fusion(DGTF)框架。该工作通过引入文本语义与目标掩模的级联调控机制,首次实现退化处理与细节保留的协同优化。研究构建了包含7类极端场景的Multi-degraded scene text target(MTS)数据集(2556对图像/场景),并采用Mamba架构提升计算效率。实验证明,DGTF在无文本引导时SSIM达0.65,较基线方法提升32%;结合目标文本引导后,YOLOv8检测准确率提升21%,验证了细节调控对高级视觉任务的增强效应。
关键技术方法
研究采用三阶段技术路径:(1)基于MSRS和FMB数据集模拟构建MTS多退化数据集,涵盖雨雪雾等7类场景的目标掩模与文本标注;(2)设计Mamba-based编解码器,将文本特征嵌入每层解码网络实现语义-图像耦合;(3)提出文本级联掩模损失函数,通过目标退化文本(如"雨+行人")、退化图像、目标掩模的三元监督强化细节表征。
研究结果
多退化场景融合性能
在MTS数据集上,DGTF的互信息(MI)指标达1.18,较PIAFusion和AT-GAN分别提升15%和9%。低光照场景下,细节文本引导使目标边缘清晰度提升47%。
文本调控有效性验证
对比实验显示,仅使用退化文本(如"雨")时融合结果SSIM=0.49,加入目标文本(如"雨+行人")后SSIM升至0.65,且YOLOv8检测人数增加30%,证实文本级联对细节保留的关键作用。
计算效率优势
Mamba架构使DGTF推理速度达45FPS,较基于Transformer的Text-IF快3倍,显存占用减少62%。
结论与意义
该研究突破传统融合方法在退化处理与细节保留间的权衡困境,通过文本语义与目标掩模的协同调控,首次实现多退化场景下的自适应细节增强。MTS数据集的发布填补了该领域缺乏多样化退化标注数据的空白。实际应用中,DGTF可显著提升自动驾驶、夜间监控等场景下的目标识别鲁棒性,其Mamba架构设计更为资源受限设备部署提供可能。未来研究可探索文本提示与三维感知的深度融合,进一步拓展多模态融合的交互维度。
生物通微信公众号
知名企业招聘