基于提示学习的多模态语义通信系统:多光谱图像分割新范式

《IEEE Open Journal of the Communications Society》:ProMSC-MIS: Prompt-Based Multimodal Semantic Communication for Multi-Spectral Image Segmentation

【字体: 时间:2025年12月01日 来源:IEEE Open Journal of the Communications Society 6.1

编辑推荐:

  本文针对多光谱图像分割在带宽受限信道传输中的挑战,提出了一种创新的ProMSC-MIS框架。研究人员通过结合提示学习和对比学习的预训练策略,使RGB和热成像模态互为跨模态提示,引导编码器学习互补语义特征;设计融合交叉注意力机制和SE网络的语义融合模块,有效整合跨模态信息。实验表明,该系统在保持相同分割性能下将通信成本降低50%-70%,存储开销和计算复杂度分别降低26%和37%,为自动驾驶和夜间监控等应用提供了高效解决方案。

  
在人工智能技术飞速发展的今天,语义通信正成为革新传统通信范式的重要方向。与传统通信追求比特级精度不同,语义通信专注于传输与任务相关的本质信息,不仅能显著降低带宽需求,更能提升下游任务性能。然而,现有研究多集中于单模态数据传输,对多模态语义通信的探索仍处于起步阶段。多模态数据虽然能提供更丰富的语义信息和更大的性能潜力,但也带来了新的系统设计挑战,特别是在如何量化各模态对任务的贡献度以及如何训练单模态语义编码器学习互补特征而非冗余信息方面存在关键问题。
针对这些挑战,上海交通大学陶梅霞教授团队在《IEEE Open Journal of the Communications Society》上发表了题为"ProMSC-MIS: Prompt-based Multimodal Semantic Communication for Multi-Spectral Image Segmentation"的研究论文,提出了一种基于提示学习的多模态语义通信框架,专门用于多光谱图像分割任务。该研究特别关注空间对齐的RGB和热成像图像对,这两种模态因其成本效益和强互补特性成为研究多模态特征提取的理想切入点。
研究人员开展的核心工作包括两个创新设计:首先,提出了一种结合提示学习和对比学习的预训练策略,其中每个模态交替作为另一个模态的跨模态提示,引导单模态语义编码器学习多样且互补的语义表示;其次,设计了一个结合交叉注意力机制和挤压激励(SE)网络的语义融合模块,有效融合跨模态特征。系统采用分离源信道编码(SSCC)设计,通过二进制对称信道(BSC)模型进行传输仿真。
关键技术方法主要包括:使用ResNet-152作为骨干网络的单模态语义编码器设计;基于Transformer的交叉注意力模块实现跨模态特征交互;融合块与SE网络交替的融合增强模块;以及采用Gumbel-Softmax技巧的概率性比特生成器。研究使用MFNet数据集进行训练和测试,该数据集包含1569对精确对齐的RGB-T图像,涵盖白天和夜间场景。
整体框架设计
ProMSC-MIS框架包含三个核心组件:单模态语义编码器、语义融合模块和语义解码器。RGB图像xr∈RH×W×3和热成像图像xt∈RH×W×1分别通过对应的编码器提取特征yRGBr和yTHEt,然后通过语义融合模块生成融合语义表示zs∈RLs,最后经语义解码器输出分割结果。
预训练策略的有效性
通过对比训练策略验证了预训练的有效性。在0.0039 bpp的低带宽条件下,采用完整预训练的ProMSC-MIS达到43.16% mIoU和55.21% mAcc,显著高于无预训练模型的36.55% mIoU和46.88% mAcc。结果表明预训练策略在带宽受限场景下能引导编码器提取更任务相关的语义特征。
语义融合模块的贡献
对语义融合模块的消融研究显示,完整模块在0.0703 bpp下达到51.74% mIoU和67.12% mAcc,而直接拼接特征的方法仅获得46.61% mIoU和61.60% mAcc。交叉注意力模块的作用尤为关键,其移除导致性能下降至48.74% mIoU和63.17% mAcc,表明跨模态注意力机制能有效捕捉互补信息。
与传统方法的性能对比
与传统JPEG2000/BPG-Seg方法相比,ProMSC-MIS在保持相同分割性能下减少50%-70%通信成本。在0.09375 bpp时,ProMSC-MIS的mIoU达到52.53%,而最佳传统方法BPG-FEANet仅为41.55%。在极端低比特率场景(0.0039-0.015625 bpp)下,传统编解码器无法重建可用图像时,ProMSC-MIS仍能正常工作。
单模态贡献分析
通过调整模态权重发现,热成像模态对mIoU影响更大,特别是在低带宽下,因其擅长捕捉物体轮廓;而RGB模态对mAcc贡献更显著,尤其在髙带宽下能提供丰富纹理信息。这一发现为资源分配提供了指导:在带宽充足时应向RGB编码器倾斜更多资源。
特征互补性可视化
通过Grad-CAM可视化显示,ProMSC-MIS引导热编码器关注物体边缘和轮廓,而RGB编码器聚焦物体主体区域,两者余弦相似度仅为0.056,显著低于无预训练模型的0.228,证实了预训练策略能有效促进特征互补性。
泛化能力验证
在AWMM-100k数据集上的零样本评估表明,ProMSC-MIS在雨、雾、雪等恶劣天气条件下仍能保持稳定性能,产生明显更清晰的物体边界,展示了其强大的泛化能力。
该研究通过创新的预训练和语义融合策略,成功解决了多模态语义通信中的关键挑战。ProMSC-MIS框架不仅显著提升了带宽利用效率,还通过量化各模态贡献度为相关研究提供了重要设计指导。其端到端的优化方式使系统对信道变化具有更强鲁棒性,为自动驾驶、夜间监控等带宽受限场景提供了实用解决方案。未来工作可进一步探索轻量化设计以满足实时性要求更高的应用场景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号