基于信息理论的级联信息网络(CI-Net)在遥感变化字幕生成中的创新应用

【字体: 时间:2025年06月28日 来源:International Journal of Applied Earth Observation and Geoinformation 7.6

编辑推荐:

  为解决遥感变化字幕生成中单一句子描述不足的问题,研究人员提出级联信息网络(CI-Net),通过信息理论设计级联语言模块(CL-Module),实现低成本多句子输出,并创建包含12,200条标注的SECTION数据集。实验证明该方法在复杂场景描述中具有显著优势,为地球观测任务提供更全面的文本解释工具。

  

在遥感影像分析领域,传统变化检测方法通常以二值图形式输出地物变化结果,这种表达方式难以直观反映复杂的土地利用变化细节。虽然已有研究尝试通过变化字幕生成技术(Change Captioning)将差异转化为自然语言描述,但受限于单句输出的局限性,无法全面描述多要素交织的复杂场景。现有方法若想实现多句子描述,往往需要依赖目标检测等辅助任务,这显著增加了计算成本和模型复杂度。

针对这一技术瓶颈,西安电子科技大学智能感知与图像理解教育部重点实验室的研究团队创新性地引入信息论原理,构建了级联信息网络(Cascade Information Network, CI-Net)。该网络通过定义与深度特征相关的概率事件,在设计的级联语言模块(CL-Module)中迭代更新特征,并利用信息量阈值控制输出句子数量,实现了无需辅助任务的多句子生成能力。为验证方法有效性,团队还基于SECOND数据集构建了包含4059个样本、超过12,200条标注的SECTION数据集,相关成果发表在《International Journal of Applied Earth Observation and Geoinformation》。

关键技术方法包括:1)采用非对称孪生网络(Asymmetric Siamese Network, ASN)提取多时相影像特征;2)设计CL-Module实现特征迭代更新,通过概率公式fP(Sk)关联特征与字幕;3)基于香农信息论计算累积信息量H(∩kSk)作为终止条件;4)使用包含Transformer和RNN的混合语言模块生成自然语言描述。

研究结果方面:

  1. 级联语言模块设计:通过定义事件Sk={特征通道和像素参与第k个字幕},构建具有非负性、单调性和可加性的信息量计算体系。实验显示当阈值M=1.5×104时,在SECTION-A验证集上取得BLEU-4得分20.3,显著优于对比方法。

  2. 网络架构优化:特征更新公式Fk=F1⊙g(1-maxj<>σ(fpi→Ω(Fj)))有效避免信息冗余,在迪拜-CC数据集上取得80.9的BLEU-1分数,比Attentive-Net提升8.9个百分点。

  3. 多数据集验证:在LEVIR-CC测试集上,CIDEr-D指标达到149.6,较基准方法RSCaMa提升9.5%。可视化显示网络能自主聚焦不同区域生成互补性描述,如准确识别训练数据中未标注的"居住区"类别。

  4. 计算效率分析:模型参数量仅12.71M,不足对比方法MCCFormer-D的1/12,但推理FLOPs达39.92G,反映多句子生成的计算代价。

这项研究的重要意义在于:理论层面,首次将信息量计算引入变化字幕任务,为自适应输出长度提供了数学基础;实践层面,CI-Net在 urban planning(城市规划)和natural resource management(自然资源管理)等场景中,能够自动生成包含面积占比、相对位置等细节的多维度描述。创建的SECTION数据集通过细分11种地物类别(如区分"水泥地"与"裸土"),推动了细粒度遥感理解的发展。未来工作可探索信息阈值M的动态调整机制,以及在多模态大模型中的应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号