智能体是您所需:开创性利用智能体人工智能将大语言模型融入乳业科学

【字体: 时间:2025年09月13日 来源:Journal of Dairy Science 4.4

编辑推荐:

  本研究针对大语言模型(LLM)在乳业科学领域应用中存在生成不准确或无关回答的问题,开发了一种基于检索增强生成(RAG)和智能体人工智能(AI)的双组件系统。该系统包括基于《Journal of Dairy Science》(JDS)文献的决策支持聊天机器人,以及可与学术模型交互的自然语言界面,显著提升了回答的准确性和实用性,为乳业科研与生产提供了可靠的智能决策支持工具。

  

在当今信息爆炸的时代,人们面临着前所未有的数据洪流,如何从海量信息中提取有价值的知识并做出明智决策,已成为科研与生产领域的核心挑战。特别是在乳业科学这一专业领域,尽管人工智能(AI)技术已在医疗、教育、商业和作物科学等多个行业展现出变革性潜力,但通用大语言模型(LLM)在处理及时性、领域特异性问题时,往往表现不佳。它们可能生成与事实不符甚至误导性的回答——这种现象被称为“幻觉”(hallucination),严重限制了LLM为乳业科学家、兽医和生产者在提供循证决策支持方面的应用价值。不准确的答案不仅可能导致实际负面后果,还会侵蚀用户信任。因此,亟需一种更可靠、更专业的解决方案,以充分释放AI在推动精准乳业管理、兽医护理和农场决策方面的潜力。

为了应对这些挑战,研究人员开展了一项开创性研究,旨在探索如何将LLM与智能体人工智能(Agentic AI)系统相结合,构建一个专为乳业科学定制的智能决策支持平台。该研究由E. Liu、H. Yang、S. Sharma、M.B. van Leerdam、P. Niu、M.J. VandeHaar和M. Hostens合作完成,并发表在《Journal of Dairy Science》上。

研究团队开发了一个双组件的智能体系统。第一个组件是一个基于《Journal of Dairy Science》(JDS)文献的决策支持聊天机器人,它能够提供科学支持的见解;第二个组件是一个自然语言界面,用于与学术模型交互并可视化预测结果。为了构建系统的知识基础,研究人员通过PubMed应用程序编程接口(API)收集了自1917年以来所有公开发表的JDS摘要及相关元数据,形成了一个庞大的科学知识库。在此基础上,他们采用了检索增强生成(RAG)框架,确保由Meta开发的LLaMA模型生成的回答能够基于同行评审文献,并为每个答案引用5个最相关的来源。为了处理JDS文献覆盖范围之外的问题,系统还集成了一个网络搜索智能体,可以从外部在线资源获取补充信息。此外,系统还引入了由Databricks开发的DBRX模型驱动的评分智能体,用于评估LLM生成内容的可信度和相关性,以降低错误信息或幻觉回答的风险。第二个组件实现了与MilkBot(一个已发布的贝叶斯产奶量预测模型)的自然语言交互。用户可以用通俗语言提交问题,系统将问题转换为模型参数,执行预测,并利用预测结果生成可视化图表。

在技术方法上,研究主要依托以下几个关键方面:首先,利用PubMed API大规模收集并整理了JDS自1917年以来的摘要及元数据,构建了领域知识库;其次,采用检索增强生成(RAG)框架结合LLaMA和DBRX等大语言模型,实现多智能体协作下的问答生成与自我评估;第三,集成外部网络搜索功能以补充知识盲区;最后,开发自然语言接口连接MilkBot预测模型,实现参数自动提取与结果可视化。

研究结果部分通过多个维度展示了系统的性能与实用性。

在“Demonstration of Agentic RAG in Handling Diverse Question Types”中,系统成功处理了三种不同类型的查询:当用户询问“如何在不降低产奶量的情况下减少奶牛的甲烷排放?”时,系统激活检索流程,从JDS文献中获取相关科学文献,生成回答并附上适当引用;当问题涉及“2025年2月NIH有哪些新闻需要关注?”时,系统通过网络搜索智能体获取相关新闻文章,生成回答并引用来源;而当问题超出系统范围(如“你认识Enhong Liu吗?”)时,系统能正确识别并拒绝回答,展示了其良好的边界控制能力。

在“Interactive Use Cases: Natural Language Interface for Milk Yield Prediction”中,系统展示了其与预测模型交互的强大能力。用户可以用自然语言(支持多语言)查询,例如“能展示美国奶牛的产奶量曲线吗?”系统会基于MilkBot模型生成美国奶牛不同胎次(parity 1、2、3+)的平均泌乳曲线;当询问“能比较欧盟和美国胎次1奶牛的产奶量曲线吗?”时,系统检索并可视化两者的曲线,支持直接对比;用户还可以查询特定预测值,如“能提供欧盟胎次2奶牛在DIM(分娩后天数)30、50、80、100、150、250和300时的预测产奶量吗?”系统会生成并呈现相应数值;甚至用中文提问“可以展示下美国奶牛产奶量曲线吗?”,系统也能正确理解并生成相同结果,体现了其多语言适应性。

研究的讨论部分强调了该系统在乳业科学中的开创性意义。与以往主要关注分类或预测模型的AI应用不同,本研究引入了一种自适应系统,旨在解决数字时代的新挑战:现代乳业操作产生大量异构数据流,涵盖基因组学、营养、动物健康、环境影响和传感器输出等,但解释、整合这些数据的工具往往分散或难以被非技术用户使用。智能体AI赋能的LLM系统提供了一个有前景的解决方案,它作为一个可扩展、直观的接口,能够将复杂、多源数据转化为可操作知识,增强利益相关者之间的沟通和决策。

研究团队选择LLaMA而非GPT系列模型,主要是出于隐私和安全考虑。开源模型如LLaMA可以在私有环境中运行,避免敏感数据泄露风险,同时LLaMA 70B表现出与GPT-3.5相当的逻辑推理和回答生成能力,足以满足应用需求。该系统框架在其他领域(如医疗、金融、法律和教育)的成功应用也为其在乳业科学的推广提供了借鉴。特别是智能体系统相较于普通LLM的优势在于其能够与更广泛的数据模态交互,包括学术模型如MilkBot。虽然当前MilkBot仅支持调整DIM、胎次和区域等参数,但研究展示了系统扩展到更多模型和更广泛用例的潜力,例如未来整合营养模型后,用户可以直接询问“如何用我现有的饲料原料A、B和C配制日粮以最大化产奶量?”,从而提供更贴合实际决策的数据驱动见解。

该系统对科学界、顾问和生产者均有重要价值。对科研人员,它能提供新兴研究的及时更新,支持知识发现和假设生成,例如帮助探索甲烷排放与瘤胃微生物群和饲料成分之间的关联,并通过对现有研究的分析提出被忽视的变量或相关性,可能催生新的研究问题和合作。对顾问和推广专家,它可以增强咨询服务,提供数据驱动的、针对特定农场的建议,例如结合实时天气数据、历史群体表现记录和文献,为热应激管理提供优化策略。未来,将智能体AI工作流程集成到现有商业乳业平台(如DairyComp或PCDART)中,可以显著增强农场智能,支持更有效的决策。

然而,研究也指出了系统当前的局限性。作为概念验证,它仅依赖JDS摘要,可能忽略了其他期刊、教科书、农场报告和真实世界数据的见解。不同研究可能对类似问题给出矛盾结论,因此未来需要开发方法来自动识别、背景化并分析这些冲突。模型交互子系统目前仅依赖一个预测模型,适用性有限,需要跨领域研究者合作开发更全面的预测模型套件。同时,MilkBot模型仅基于美国和欧盟合作伙伴提供的有限数据训练,可能无法充分代表更广泛的奶牛群体,需要更大、更多样的数据集来增强其泛化能力和适用性。

此外,研究还讨论了伦理、监管和社会因素。AI决策过程的不透明性是一个关键挑战,需要通过可解释AI技术来提高透明度,建立用户信任。监管框架也需制定最佳实践和指南,明确责任归属,例如如果农民遵循AI生成的建议却对群体健康或利润产生负面影响,谁应承担责任。数据治理同样重要,必须实施强大措施防止专有或敏感信息意外暴露,加强隐私保护,确保AI模型遵守知识产权法规。

总之,这项研究证明了LLM在精心指导、基于相关领域文献并与外部模型集成后,可以开始满足现代乳业对智能、用户友好工具的需求。研究旨在激发创新和跨学科对话,推动下一代AI赋能工具在乳业科学的发展。随着LLM技术的快速演进,其成功采用将依赖于持续适应、定制化以满足乳业特定需求,并高度关注可访问性、透明度和安全性。通过这项工作,研究团队希望激励进一步探索和共同开发智能系统,以促进乳业领域的科学研究和实际成果。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号