-
生物通官微
陪你抓住生命科技
跳动的脉搏
中国农作物病虫害知识图谱
【字体: 大 中 小 】 时间:2025年02月07日 来源:Scientific Data 5.8
编辑推荐:
北京林业大学信息科学技术学院的研究人员荣根?闫、平安等,在《Scientific Data》期刊上发表了名为 “A knowledge graph for crop diseases and pests in China” 的论文。该研究成果对提升中国农作物产量、推动农业可持续发展意义重大。它不仅整合了分散的农作物病虫害数据,还为农业科研和实践提供了全面、高效的信息平台,有助于精准防控病虫害,保障粮食安全。
北京林业大学信息科学技术学院的研究人员荣根?闫、平安等,在《Scientific Data》期刊上发表了名为 “A knowledge graph for crop diseases and pests in China” 的论文。该研究成果对提升中国农作物产量、推动农业可持续发展意义重大。它不仅整合了分散的农作物病虫害数据,还为农业科研和实践提供了全面、高效的信息平台,有助于精准防控病虫害,保障粮食安全。
论文提出了中国农作物病虫害知识图谱(CropDP-KG),利用自然语言处理技术对中国农作物病虫害图文数据库数据进行分析。CropDP-KG 涵盖 8 种主要实体和 7 种关系,包含 13,840 个实体和 21,961 个关系。研究展示了 CropDP-KG 在知识服务系统中的应用,并开源了代码,为用户构建和拓展知识图谱提供了指导。
农作物病虫害每年在全球造成超 700 亿美元的经济损失,严重影响作物产量。人工智能在农业领域的应用可减少损失、促进可持续发展。当前虽有诸多农业数据系统,但病虫害知识分散于各类数据库、文献和网页,信息传播受限、数据结构不统一,制约了病虫害防治策略的创新与实施。
知识图谱是解决这些问题的有效方法,它能结构化表示知识,促进数据集成与共享。在农业领域,虽已有一些知识图谱研究,但多聚焦单一作物,覆盖范围有限,且构建过程依赖人工,效率低、易出错。自然语言处理(NLP)作为人工智能的关键分支,在知识图谱构建中至关重要,可实现实体识别和关系抽取,提高构建效率和准确性。本研究旨在利用 NLP 技术构建全面、高效的农作物病虫害知识图谱,解决现有问题。
研究人员从安徽省农业科学院信息研究所开发的中国农作物病虫害图文数据库获取文本数据。该数据库整合了大量图像、文本和视频信息,涵盖 5000 多种常见农作物害虫,配有 7034 张高质量图像。研究人员使用 Python 网络爬虫技术收集了 3493 种农作物病虫害数据,包括中英文名称、描述、症状等,并将其整理为 CSV 文件。
利用 Label Studio 对文本数据进行标注,确定了病虫害中英文名称、作物名称、发生条件等 8 个关键实体类别。使用 BMES 标注方法,共完成 13840 个高质量实体标注。基于 1500 个句子标注的实体训练病虫害命名实体识别模型,比较了 BERT-BiLSTM-CRF 和 BERT-CRF 两种模型的性能,前者在多数实体类别识别中表现更优。
领域专家从标注文本中提取了 21961 个三元组,涵盖 “RegionIs”“ConditionIs” 等 7 种主要关系类型,拓展了知识图谱的深度和广度。
采用 Neo4j 高性能图数据库构建知识图谱。Neo4j 以节点和关系存储数据,具有快速处理、无限扩展等优势,其 Cypher 查询语言简化了数据关系的创建和查询。知识图谱中的节点代表不同实体,关系包括 “RegionIs”(病虫害发生区域)、“Damage”(对作物的危害)等,这些关系构成了知识图谱的基础结构。
开发了农作物病虫害知识服务系统,采用前后端分离架构。后端使用 Python 和 Django 框架,前端使用 Vue 框架、HTML、CSS 和 Element-UI 组件库,通过 Axios 库实现前后端数据交互。系统集成了知识查询、问答、管理等功能,为用户提供了便捷的知识获取和管理平台。
CropDP-KG 以 CSV 格式提供 21961 个三元组数据,包括命名实体、病虫害中英文名称三元组、发生区域三元组等,这些数据已在 Figshare 上公开。
实体验证:由经验丰富的领域专家使用 Labeling Studio 进行实体标注,组织林业学院的硕士和博士生进行审核。建立协调机制,解决标注中的分歧,确保标注质量。
三元组验证:严格控制三元组精度,在构建过程中进行多步骤审核。随机抽取 5% 的三元组(共 1098 个)进行详细验证,仅发现 1 个错误(关系标注不当),错误率低于 0.1%,验证了数据集的高质量。
CropDP-KG 验证:通过自定义知识服务系统对 CropDP-KG 进行可视化检查,确保知识图谱的准确性和一致性。构建过程中,实体标注和三元组构建均经过严格人工审核,最终的 CropDP-KG 准确性高。
网络爬虫获取的原始数据和 CropDP-KG 项目代码分别在https://github.com/dadadaray/CropDP-KG/tree/CropDP-KG-originData和https://github.com/dadadaray/CropDP-KG/tree/Knowledge-System上开源,促进知识共享和技术交流。
研究成功构建了中国农作物病虫害知识图谱 CropDP-KG,整合了分散的病虫害数据,为农业科研和实践提供了统一的数据平台。通过知识服务系统,用户可高效查询病虫害信息、获取智能问答服务,还能参与知识图谱的更新和完善,提高了病虫害防治的效率和准确性。
CropDP-KG 的构建是农业领域的重要进展,提升了用户获取和理解病虫害信息的能力,为农业决策提供了有力数据支持。知识问答功能有助于解决实际问题,知识管理功能确保了信息的及时性和可靠性。未来,可进一步优化知识图谱的构建方法,提高自动化程度,拓展其在精准农业、智能种植等领域的应用,推动农业可持续发展。