
-
生物通官微
陪你抓住生命科技
跳动的脉搏
知识图谱与大语言模型融合的园林病虫害智能问答系统构建及精度提升研究
【字体: 大 中 小 】 时间:2025年06月22日 来源:Smart Agricultural Technology 6.3
编辑推荐:
随着城市园林发展,病虫害问题日益严峻。研究人员结合知识图谱(KGs)和大语言模型(LLMs),构建了基于ERNIE-BiLSTM-CRF的知识提取模型(精度达92.77%)和检索增强生成(RAG)问答系统,在简单/中等/复杂问题上准确率分别达90%/70%/60%,为专业领域问答提供了新范式。
城市绿化进程中,园林病虫害防治面临严峻挑战。传统问答系统难以处理复杂语义查询,而大语言模型虽能生成流畅回答,却存在专业准确性不足的问题。知识图谱虽能提供结构化知识,但在交互灵活性上存在局限。如何整合两者的优势,构建专业领域的智能问答系统,成为亟待解决的科学问题。
中国农业科学院等机构的研究人员开展了"基于知识图谱与大语言模型的园林病虫害问答方法构建"研究。通过收集2859种害虫和1501种病害数据,采用半结构化规则提取和ERNIE-BiLSTM-CRF模型(融合ERNIE预训练、双向长短期记忆网络和条件随机场)构建知识图谱;利用LangChain框架组织检索增强生成流程,结合ERNIE-Bot-turbo模型实现专业问答。关键技术包括:网络爬虫数据采集、BIO标注的实体识别、Neo4j图数据库存储、ERNIE-bge-large-zh文本向量化、Chroma向量数据库相似度匹配等。
【知识图谱构建】
通过XPath和正则表达式提取半结构化数据,构建包含病害、害虫、植物等实体的概念模式层。采用ERNIE-BiLSTM-CRF模型处理非结构化文本,该模型在疾病名称识别上F1值达97.89%,三元组提取准确率达90.12%。
【问答方法设计】
创新性地将知识图谱检索与LLM生成结合:先通过向量相似度匹配(MRR@5达0.72)定位相关知识,再用Cypher查询获取关联信息,最后构造专业提示词输入ERNIE-Bot-turbo生成回答。相比纯LLM方法,在简单问题上准确率提升10%。
【实验验证】
在200个专业问题测试中,该系统在简单/中等/复杂问题上的准确率(0.90/0.70/0.60)显著优于ERNIE-Bot-turbo和ChatGLM-6B。专家评估显示,其回答在专业性、准确性维度的满意度最高(总体满意度0.57-0.61)。
该研究首次实现了知识图谱与LLM在园林病虫害领域的深度整合,通过结构化知识约束生成过程,既保持了语言模型的交互灵活性,又确保了专业内容的准确性。提出的ERNIE-BiLSTM-CRF模型在专业实体识别上F1值达92.77%,为垂直领域知识提取提供了新方案。检索增强生成框架有效缓解了LLM的幻觉问题,对无关问题的拒答机制避免了误导性输出。未来可通过自动化图谱更新、提示工程优化等方向进一步提升系统性能,该技术路线也可拓展至农业、医疗等需要专业知识的领域。论文发表于《Smart Agricultural Technology》,为专业知识服务智能化提供了重要参考。
生物通微信公众号
知名企业招聘