LViM：融合语言信息的Visual Mamba（语言注入视觉Mamba）用于复杂环境下苹果叶部病虫害的精确分割

《Plant Phenomics》：LViM: Language-Infused Visual Mamba for Apple Leaf Pests and Diseases Precise Segmentation in Complex Environments

【字体：大中小】 时间：2026年06月09日 来源：Plant Phenomics 6.4

编辑推荐：

　　摘要：苹果叶病害分割对全球重要经济果树作物苹果的产量与品质保护至关重要。尽管深度学习取得进展，真实果园环境仍存在三方面挑战：（1）病斑与背景纹理对比度低，阻碍准确定位；（2）叶片重叠与遮挡导致特征表示不完整及假阴性增加；（3）单模态RGB（Red-Green-

摘要：苹果叶病害分割对全球重要经济果树作物苹果的产量与品质保护至关重要。尽管深度学习取得进展，真实果园环境仍存在三方面挑战：（1）病斑与背景纹理对比度低，阻碍准确定位；（2）叶片重叠与遮挡导致特征表示不完整及假阴性增加；（3）单模态RGB（Red-Green-Blue，红绿蓝）影像难以捕捉细微病理特征，限制泛化能力与精度。为此，研究人员提出Language-Infused Visual Mamba（LViM，语言注入视觉Mamba），一种集成Mamba与Transformer模块进行语义–视觉特征融合的双路U-Net架构。LViM通过三项核心创新实现复杂环境下的鲁棒分割：（1）集成AMBERT的U型多模态Transformer（Multimodal Transformer，MTT）分支，利用跨模态语义关系增强文本特征提取并提供高层语义线索，从而提升病斑–背景可区分性；（2）采用二维选择性扫描（2D Selective Scanning，SS2D）与Visual State Space（VSS）块的U型Visual State Space（VMamba）分支，捕获全局上下文与细粒度细节，缓解遮挡影响；（3）Cross-Attention Gate Fusion（CAGF，跨注意力门控融合）与Linguistic Cross-Nested（LCN，语言交叉嵌套）模块，促进高效跨模态对齐与分层特征建模以更好识别细微病斑。实验结果表明，LViM持续优于VM-UNet基线，Precision（精确率）提升4.05%，Dice系数提升4.25%，mIoU（mean Intersection over Union，平均交并比）提升4.49%，Recall（召回率）提升4.23%。

论文解读：LViM——融合语言信息的Visual Mamba用于苹果叶部病害精确分割（《Plant Phenomics》）

一、研究背景与立题依据

苹果富含营养且是全球重要经济作物，但Alternaria leaf spot（链格孢叶斑病）、brown spot（褐斑病）、gray spot（灰斑病）及rust（锈病）等病原严重制约产量。传统化学防治带来环境污染与抗药性问题，因此快速准确的病害识别与严重度评估是精准防控的基础。早期靠人工目测，效率低且依赖经验；传统图像处理方法（颜色空间变换、阈值分割、K-means、区域生长等）在真实果园复杂背景下鲁棒性差。以U-Net为代表的卷积神经网络（Convolutional Neural Network，CNN）受限于局部感受野、平移不变性归纳偏置及权值数据无关性，难建模长距离全局依赖与动态适应输入内容。Vision Transformer（ViT）虽能全局建模，但自注意力机制计算复杂度随分辨率呈平方增长，且在小样本农业数据集上易过拟合。VMamba引入Visual State Space（VSS）块与二维选择性扫描（2D Selective Scanning，SS2D），以线性复杂度实现全局上下文捕获，已在作物与医学图像分割中展现优势，但单模态RGB仍难以区分低对比度病斑、被遮挡区域及相似纹理背景。将文本语义（病害形态、颜色、纹理描述）与视觉特征融合可为分割提供高层语义先验，弥补单模态不足。现有CNN-Transformer双路U-Net融合多基于视觉互补，少有引入语言模态进行显式语义引导，且跨分支特征对齐存在困难。为此，研究人员开展本研究，提出Language-Infused Visual Mamba（LViM）——一种Mamba-Transformer双路U-Net多模态分割框架，并在自建苹果叶病害多模态数据集上验证其效能，论文发表于《Plant Phenomics》。

二、主要关键技术方法概述

研究人员在植物病理学专家协助下，整合公开PlantVillage数据集与网络采集图像，经去重、筛选与LabelMe像素级标注，构建含Alternaria leaf spot、brown spot、gray spot及rust四类、共1800张（训练1440张，测试360张）带GPT-5生成类别级病害文本描述的苹果叶多模态数据集，涵盖雨滴、强光、阴影、土壤、茎秆、杂草等田间干扰；用预训练VMamba-S（ImageNet-1k权重）作视觉编码器，AMBERT作文本编码器，搭建U-VMamba分支（含VSS块与SS2D四向扫描）与U型Multimodal Transformer（MTT）分支（含Convolutional Transformer BERT Network，CTBN层实现图文交互），在跳层连接处嵌入Cross-Attention Gate Fusion（CAGF）模块进行全局语义引导的局部特征门控融合，并设计Linguistic Cross-Nested（LCN）模块实现跨尺度语言–视觉嵌套融合；模型以Dice Loss训练，AdamW优化器，初始学习率1e-4，CosineAnnealingLR调度，batch size 16，200 epoch，图像缩放至224×224，辅以亮度自适应调整、随机翻转与旋转扩增；选用Precision、Dice系数、mIoU、Recall为评价指标，与VM-UNet、UNet、DeepLabV3+、SegFormer、LViT、CTDUNet、TransUNet对比，并做消融实验与柑橘、马铃薯病害零微调迁移验证。

三、研究结果

3.1 Image Acquisition and Processing（图像采集与处理）

研究人员自建多模态苹果叶病害数据集，覆盖四类典型病害及复杂田间环境变量，由专家协作标注像素级掩膜并配GPT-5生成的病害语言学描述作为语义先验，为模型跨模态对齐提供基础。

3.2 Deep learning method（深度学习方法）

3.2.1 Overall Architecture（总体架构）

研究人员提出LViM双路U-Net框架：一路为U-VMamba分支，借VSS块与SS2D捕获全局上下文与细粒度细节并保持线性复杂度；另一路为U-MTT分支，结合AMBERT文本编码、MTT模块与LCN模块实现语义–视觉深层跨尺度融合；CAGF模块嵌入VMamba跳连接，以跨注意力门控抑制背景噪声并强化病斑局部特征，整体缓解单模态特征模糊与跨模态错位。

3.2.2 U-VMamba Branch（U-VMamba分支）

VMamba将一维选择性状态空间模型（Selective State Space Model，S6）扩展至二维，通过SS2D将特征图沿四方向展开为一维序列分别经独立S6块处理再重塑回二维，离散化后具线性时间复杂度(O(N))，有效感受野覆盖全图；VSS块去除冗余乘分支、保留层归一化与残差连接，四阶段分层下采样获多尺度视觉特征，适合高分辨率叶部病害分割。

3.2.3 U-MTT Module（U-MTT模块）

AMBERT对粗细粒度词序列双流编码获文本表征，经CTBN（两层Conv2d+BatchNorm+ReLU）投影后与VMamba初层视觉特征做逐元素相乘融合并送VMamba块输出；各层级MTT模块将前级MTT特征与同级VMamba特征交互，上采样MTT输出送入CAGF，实现文本语义对视觉特征的渐进引导。

3.2.4 Cross-Attention gating fusion (CAGF) module（CAGF模块）

CAGF以局部特征（VMamba轻量特征金字塔输出）作Query(Q)，全局多模态特征（MTT经CaSa全局提取）作Key(K)/Value(V)，引入正弦位置编码保留空间坐标，计算缩放点积注意力得语义显著权重作用于局部特征，再与上级采样全局特征通道相加并经1×1卷积非线性变换，实现"全局语义引导–局部细节增强"的门控融合，抑制背景干扰、保病斑边缘连续。

3.2.5 Linguistic Cross-Nested (LCN)（LCN模块）

预训练BERT-base将病害文本转为768维词向量，AMBERT与BERT文本张量重塑匹配VMamba各下采样阶段尺度，与同尺度初始视觉张量做跨模态交互得初融特征，再逐层将前两层跨模态融合特征与当前层VMamba输出嵌套累加嵌入后续VMamba模块，形成多尺度语义嵌套向量，深化语言语义对视觉编码各层级的指导。

4.2 Ablation Research（消融实验）

在自建数据集上以VM-UNet为基线逐步添加模块：仅加AMBERT-MTT分支，Precision/Dice/mIoU/Recall较基线分别+0.40%/+0.94%/+0.73%/+0.82%，减轻类间混淆但边界细化有限；仅加CAGF模块分别+1.28%/+2.10%/+1.63%/+1.54%，明显改进微细rust病斑捕获；二者联合（完整LViM）达最优，分别+4.05%/+4.25%/+4.49%/+4.23%，参数仅增3.29 M（总32.72 M，约为TransUNet参数量的26%），证明文本语义先验与CAGF门控融合具协同互补效应。

4.3 State-of-the-Art Comparison（与现有方法对比）

LViM在整体mIoU达94.22%，各病害IoU均最高（Alternaria leaf spot 91.61%、brown spot 92.48%、gray spot 93.36%、rust 97.19%），超越UNet、DeepLabV3+、SegFormer、LViT、CTDUNet、VM-UNet及TransUNet；定性结果显示LViM对低对比度、重叠遮挡及微小病斑分割更完整、边界更贴合，无明显漏检与错分，验证了Mamba–Transformer双路结构与语言注入视觉特征融合之优势。

4.4 Generalization Experiment（泛化性实验）

直接将苹果数据集预训练LViM权重用于柑橘（brown round spot、chlorotic spot、citrus leaf spot、citrus canker）与马铃薯（early blight、late blight、black spot、brown spot）叶病害分割且不微调，仍能准确分割不同形态、尺度的病斑区域，无明显漏检与类间混淆，表明所学习到的跨模态对齐与病斑注意机制可跨作物迁移，具备多作物病害监测潜力。

四、讨论与结论翻译

讨论与结论：复杂果园环境中苹果叶病害分割面临病斑–背景低对比度致定位难、叶片重叠遮挡致特征不完整、单模态RGB限制泛化三类问题。研究人员提出LViM——融合Mamba与Transformer的双路U-Net语义–视觉特征融合框架。以VMamba为视觉编码器，借助SS2D与VSS块捕获全局上下文及被遮挡病斑特征；文本模态补足高层语义信息以提升病斑–背景区分度；多尺度语义交叉嵌入网络与CAGF模块实现跨模态特征动态对齐与分层感知，弥补单模态模型局限。实验显示LViM较VM-UNet基线Precision提升4.05%、Dice系数提升4.25%、mIoU提升4.49%、Recall提升4.23%；参数量仅为性能次优TransUNet的26%。研究人员构建了含四类病害、多样自然环境及GPT-5生成语义描述的多模态苹果叶病害数据集，为农业多模态研究提供基础。LViM不仅适用于苹果叶病害识别，还可输出具显式空间边界的病斑掩膜以支持病害严重度分级，更适合果园连续监测与精准植保管理。田间部署时文本提示可预定义或从内置病害描述库调取，无需用户每图输入。局限在于极端曝光或极弱光下精度可进一步优化，且未系统评估不同发病阶段（早期微小低对比度病斑vs晚期粘连模糊边界）性能，未来将拓展至多作物多病害及不同病程阶段验证。

热点排行