
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于实体级跨模态融合的农业病虫害多模态命名实体识别研究
【字体: 大 中 小 】 时间:2025年07月19日 来源:Smart Agricultural Technology 6.3
编辑推荐:
为解决农业领域文本描述模糊性、信息单一性和跨模态融合能力不足等问题,研究人员提出AgriFuseNER模型,通过双流实体级编码器和动态跨模态门控注意力机制(DCGA),在构建的MANER数据集(12,074样本)上实现90.73%的mF1值,为农业知识图谱构建提供关键技术支撑。
在农业信息化进程中,准确识别作物、病虫害和农资产品等实体是构建知识图谱的核心任务。然而传统基于纯文本的命名实体识别(NER)面临三大困境:专业术语存在"一词多义"(如"黑斑病"可能指病害症状或虫害痕迹)、单一文本模态信息不完整,以及图像与文本语义割裂。这些瓶颈严重制约了农业智能问答、病虫害视觉诊断等应用的发展。
针对这一挑战,国内某研究机构团队在《Smart Agricultural Technology》发表研究,提出农业多模态命名实体识别模型AgriFuseNER。该研究创新性地采用双流编码架构:文本流通过边界-中间体(B-M)分类策略实现细粒度语义分割,视觉流基于Faster R-CNN检测兴趣区域;设计动态跨模态门控注意力(DCGA)机制,通过门控权重自适应调节视觉特征贡献度。研究同时构建了包含10类实体、82种典型病虫害的MANER数据集(12,074对图像-文本样本),采用混合标注策略确保数据质量。
关键技术包括:1)基于BERT-CRF的文本实体边界检测;2)视觉实体区域的多尺度特征聚合;3)跨模态对比学习增强实体级对齐;4)双任务损失函数联合优化。实验显示模型在"症状描述"等长实体识别准确率提升8.5%,在"农药名称"等专业术语识别中mF1值达90.73%,较单模态基线提升5.96%。
主要研究发现包括:
研究创新性体现在三方面:首次建立农业文本实体与视觉区域的细粒度映射;提出门控机制解决模态间特征异构问题;构建首个覆盖10种作物的专业多模态NER数据集。该成果为农业知识服务从单模态向多模态转型提供了方法论支撑,其"实体级融合"框架可扩展至医疗、生物等垂直领域。未来研究将探索联合文本-图像实体标注技术,进一步提升模型在田间复杂场景中的泛化能力。
生物通微信公众号
知名企业招聘