
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多模态原型网络与协同度量融合的少样本高光谱图像分类方法研究
【字体: 大 中 小 】 时间:2025年06月19日 来源:Neurocomputing 5.5
编辑推荐:
为解决高光谱图像(HSI)分类中单模态原型网络难以捕捉类间细微差异的问题,研究人员提出多模态原型网络与协同度量融合(MPCF)方法,通过整合图像和文本模态的原型信息,结合对比学习策略,在Indian Pines(84.06%)、Houston(80.41%)和Salinas(92.63%)数据集上实现少样本和跨域场景下的性能突破,为HSI分类提供新的多模态融合范式。
高光谱图像(HSI)因其独特的光谱“指纹”特性,在地质勘探和国防安全等领域具有重要应用价值。然而,传统分类方法面临两大瓶颈:一是标注成本高昂导致样本稀缺,二是类间光谱差异细微(如不同植被亚类)使得跨域识别困难。现有原型网络(Prototypical Networks)虽能缓解少样本问题,但仅依赖单模态图像特征,忽略了标签文本蕴含的语义信息,导致模型对“光谱相似但语义不同”的类别(如“小麦”与“大麦”)区分能力有限。
针对这一挑战,延安大学的研究团队在《Neurocomputing》发表研究,提出多模态原型网络与协同度量融合(MPCF)方法。该方法创新性地将图像空间-光谱特征与类别描述文本相结合,通过双模态原型生成和协同度量机制,在Indian Pines等三个公开数据集上实现84.06%的最高分类精度,较传统方法提升显著。
关键技术包括:1) 双分支特征提取(3D-CNN处理HSI立方体数据,BERT提取文本嵌入);2) 跨模态对比学习对齐图像-文本特征空间;3) 协同度量模块计算查询样本与图像/文本原型的联合相似度;4) 基于Chikusei数据集(源域)到目标域(如Indian Pines)的跨域迁移框架。
【研究结果】
非跨域方法比较
MPCF在5-way-1-shot设定下,分类精度较3D-CNN提升23.7%,证明多模态融合对少样本场景的有效性。
跨域性能验证
以Chikusei为源域时,MPCF在Houston数据集上的跨域分类精度达80.41%,显著优于域适应方法CTFSL的72.15%,显示文本原型对域偏移的鲁棒性。
消融实验
移除文本原型使Salinas数据集精度下降8.92%,证实文本模态对区分光谱相似类别(如“葡萄园”不同品种)的关键作用。
【结论与意义】
该研究通过将标签语义信息深度融入原型网络,突破传统HSI分类的三重局限:1) 构建首个可同时处理图像像素与类别描述的协同度量空间;2) 通过对比学习实现跨模态特征对齐,解决“语义鸿沟”问题;3) 在少样本和跨域场景下保持稳定性,如Indian Pines仅用5个支持样本即达84.06%精度。这种“视觉-语义”双驱动范式为遥感图像解译提供了新思路,其代码开源(GitHub/AIYAU/MPCF)将促进农业普查、环境监测等领域的应用落地。值得注意的是,文本原型对矿物分类(如“云母”与“长石”)的提升幅度达12.4%,暗示地质勘探可能是该技术的优势应用场景。未来研究可探索多语言文本嵌入对全球尺度HSI分类的增强作用。
生物通微信公众号
知名企业招聘