综述:用于提升蛋鸡福利评估与生产优化的多模态人工智能系统

《Smart Agricultural Technology》:Multimodal AI Systems for Enhanced Laying Hen Welfare Assessment and Productivity Optimization

【字体: 时间:2025年10月25日 来源:Smart Agricultural Technology 5.7

编辑推荐:

  本综述系统阐述多模态人工智能(AI)技术在蛋鸡福利监测领域的突破性应用,通过融合视觉、声学、环境与生理数据流,实现从传统主观评估向数据驱动智能系统的范式转移。文章深入分析中间层(特征级)融合策略在真实养殖环境中的最优鲁棒性-性能平衡,提出领域迁移评分(DTS)与数据可靠性指数(DRI)两大评估框架,为构建模块化、可扩展的精准家禽养殖(PLF)系统提供科学基础。

  

1. 引言

家禽福利不仅是伦理问题,更是影响现代禽类系统生产力、产品质量与可持续性的关键决定因素。传统的“五大自由”框架(免受饥饿、不适、疾病、恐惧的自由以及表达自然行为的自由)长期作为动物福利评估的基础参考,但其二元框架(自由与受苦)因缺乏对福利体验复杂性的深度理解而面临批评。随之发展的“福利质量”框架强调四大可测量原则:良好喂养、良好居住、良好健康与适宜行为。近年来,五大领域框架等先进福利模型逐渐流行,其2020年更新版将动物精神状态作为第五领域纳入,提供了更全面的福利视角。同时,“动物机构”(Animal Agency)概念日益凸显,强调为动物提供选择和环境控制的重要性,推动从避免痛苦向主动促进积极福利体验的转变。
改善福利与降低死亡率、提升生产力、减少疾病暴发和改善产品质量密切相关。在蛋鸡中,积极福利与可量化的改善直接关联:数字畜牧系统监管下的蛋鸡产出的鸡蛋具有更优的脂肪酸谱,包括更高油酸含量和降低的n-6/n-3比率,对人类消费更健康。类似地,低饲养密度可降低死亡率并减少抗生素使用。全球范围内,蛋鸡福利的重要性正日益受到重视,大型企业与政府逐渐采用无笼饲养系统,欧盟甚至通过“终结笼养时代”倡议逐步淘汰农场动物笼养。尽管非洲、拉丁美洲和东南亚等地因经济与基础设施限制仍主要依赖笼养,但国际非政府组织正努力改善这些地区的福利标准。
然而,管理家禽福利——尤其是在大规模操作中——仍充满挑战,包括大群规模、环境多变性及难以识别的细微行为变化。细微的福利变化(如活动模式改变、啄羽或社交退缩)在大农场中常被忽视。Sakamoto等人强调需评估接触性皮炎、热应激等复杂因素,凸显了对自动化、精准监测工具的迫切需求。

1.1. 家禽应激指标

蛋鸡的应激源于对刺激或感知威胁的生理与行为反应,破坏其稳态。虽然急性应激反应可能具有适应性,但长期或重复暴露会导致福利受损、生产力下降和疾病易感性增加。应激源分为物理性(温度极端、高饲养密度、噪音、空气质量差)、心理性(对人类恐惧、频繁处理、社会不稳定)和营养性(饲料限制、水污染、微量元素失衡)。反复应激的累积效应会导致啄羽、攻击行为、死亡率上升、产蛋量减少和蛋壳质量下降,所有这些都对福利和农场盈利产生负面影响。
区分急性和慢性应激反应至关重要,因其生理特征和福利影响不同。急性应激通常由短期干扰引发,如突然处理、巨大噪音或捕食威胁,生理体征包括心率升高、α-淀粉酶活性增加和发声尖峰。慢性应激则源于长期暴露于不良居住、不稳定环境条件或持续过度拥挤,表现为皮质酮水平升高、持续异嗜细胞与淋巴细胞比率(H/L)、理毛行为减少和长期生产力下降。
家禽应激评估传统上基于四个主要领域的指标:物理、行为、生产和生理。表1总结了蛋鸡在这四个领域的关键指标。然而,这些指标的复杂性需要多维方法而非单模态分析。例如,探索、沙浴和理毛等行为测量是积极情感状态的极可靠指标,展示积极情感状态和环境适宜性。

1.2. 单传感器PLF的局限性与多模态AI的案例

精准畜牧业(PLF)作为一种有前景的框架,通过连续实时监测动物健康状况和行为条件来增强动物福利。通过集成热像仪、麦克风、视频系统和环境传感器等多种传感器技术,PLF可以收集、处理和解释高分辨率数据流,以产生可操作的见解和预测。在禽类系统特别是蛋鸡中,该框架解决了大规模操作中的许多挑战。
然而,虽然单传感器系统已被广泛采用,但它们通常无法捕捉到稳健福利评估所需的全部“情境深度”。这里的情境深度指的是系统综合各种模态信息(如家禽发声、步态或姿势、行为和环境数据)的能力,以创建对母鸡情绪状态和整体福祉的细致理解,类似于人类整合多感官线索的方式。这些系统认识到不同模态间的相互作用,而单传感器系统则缺乏这种能力。例如,基于声学的系统可以检测窘迫,但无法区分是由热应激、疾病还是攻击性互动引起。
虽然声学传感器在识别应激原因方面存在局限,热成像通过检测发热或传染病(如新城疫)的早期迹象提供了额外的生理洞察。然而,单独的热数据可能在不同环境温度下受到影响,削弱了跨农场的泛化能力。为应对这些约束,Elmessery等人提出了一种多模态架构,融合热图像与RGB图像以检测病理现象,如病眼、 lethargic chickens 和 stressed chickens。这种多模态方法不仅补偿了单模态的局限性(如照明不良或背景热噪声),还拓宽了诊断输入的维度,提供了更细致的福利评估。值得注意的是,多模态方法获得了97%的F1分数,证明了跨模态数据集成在复杂真实禽类环境中的优越性。
尽管Elmessery等人展示了令人印象深刻的结果,它们在真实禽类环境中的适用性仍存疑。高精度与已知操作挑战(如传感器漂移和遮挡)之间存在明显差异。虽然多模态展现出更高准确性,但要强有力地证明多模态在真实应用中的优势,需要在多种饲养系统、天气条件和波动环境焦点下进行验证。若未进行多重验证,其优势无法得到认证。
表2比较了单模态和多模态系统在多种福利监测应用中的表现。一个关键观察是单模态研究的大量存在,尤其是在禽类研究中。尽管其占主导地位,多模态集成一直被公认为关键的未来方向和单模态系统固有局限的解决方案。
如表2所示,虽然YOLOv8和RTMDet等单模态模型实现了高精度和准确度,但其范围仍然有限,专注于孤立特征如物体检测或分类。相比之下,多模态系统结合环境、饮食和行为数据,提供更全面和稳健的动物福利评估。这些系统不仅提供高性能指标(>90%准确度),还展现出与手动评估的高度一致性。尽管禽类特异性多模态研究有限,表2中的发现为未来提供了宝贵的概念框架。
然而,这些高性能多模态系统带有权衡。异构数据流(如高频鸡叫声和低频环境读数)的融合常常造成时间错位问题。此外,传感器之间的校准漂移(如RGB和热像仪)可能随时间降低融合质量,需要偶尔重新校准以保持可靠性。同样,计算挑战如实时推理延迟随着模态数量和融合模型架构复杂度的增加而比例增加。此外,可解释性也阻碍了真实世界的采用,因为农民和实践者需要模型预测背后的清晰解释。可解释AI的兴起开始解决这一问题,但大多数融合模型尚未采纳这一点。

1.3. 综述范围与目标

本综述旨在批判性审视多模态AI在蛋鸡福利中的当前发现与进展,聚焦于蛋鸡。本综述综合了多模态AI和数据融合策略的最新进展,以评估其在增强福利评估、生产力和操作效率方面的有效性。我们探索了多模态AI系统在禽类养殖中的架构、优势、局限和应用。此外,我们解决了关键的技术和伦理挑战,包括数据质量问题、算法偏见和监管考虑。

1.4. 系统综述方法论

本系统综述的结构旨在建立清晰的信息流,从理解关键概念到呈现最新发现和技术,最后突出挑战和未来方向。系统综述使用系统综述和Meta分析优先报告项目(PRISMA 2020)指南进行,以确保透明度、方法学透明度、可重复性和科学价值。尽管本综述遵循PRISMA 2020系统综述指南,但协议未在PROSPERO等公共数据库中注册,其缺失被视为透明度的局限。详细选择过程根据PRISMA 2020指南在图2中视觉总结。
文献检索使用四个电子数据库(Web of Science、Scopus、Google Scholar和ScienceDirect)进行,以确保跨不同领域的同行评审文章的全面覆盖。关键词策略既包容又特定领域,针对四个主要主题:多模态数据融合技术、禽类特定应用、传感器技术和环境/行为监测。
本综述聚焦于2019年1月1日至2025年5月15日发表的研究,以反映多模态蛋鸡监测的最新发展,包括深度学习架构(如transformers)、多模态传感器融合、可穿戴和非侵入式传感系统以及禽类养殖中的智能自动化。选择性纳入2019年前的研究仅在其呈现机器学习、传感器集成或早期禽类福利框架的基础方法论时使用。
搜索策略涉及组合和置换关键词:“laying hens”、“precision livestock farming”、“machine learning in poultry”、“vocalization analysis”、“acoustic and visual monitoring”、“multimodal data fusion”、“multisource”和“poultry welfare assessment”。
合格的研究是那些以英语进行、发表在同行评审期刊上、专注于监测禽类(蛋鸡)行为、福利、生产力和健康的研究。这些选定的研究要么利用多源、多模态或单模态方法来分类或量化蛋鸡指标,如喂养、活动水平、行为、疾病。灰色文献被选择性纳入,预印本被允许 due to the provision of substantial methodological detail and alignment with inclusion criteria. However, conference papers, theses, technical reports and non-peer reviewed white papers were omitted to maintain a consistent level of methodological rigor and peer-reviewed standard.
被排除的研究是那些非英语、与禽类或蛋鸡无关、缺乏机器学习应用或未能包含禽类科学或福利的研究。额外排除是针对缺乏方法学清晰性或由于报告不足无法复制的研究。
为确保一致性和减少偏见,检索到的文章由 lead author 下载和审查。研究的短名单然后发送给主题专家(监督作者)进行二次筛选和验证。这一两步过程有助于确保相关性、可信度和与研究目标的一致性。任何分歧通过讨论解决。
为确保透明度和可靠性,两名独立评审员筛选了30篇全文文章的子集。 lead author 和第二独立评审员之间的评审员间协议很高,Cohen’s Kappa系数为0.82,表明两名评审员之间存在显著协议。任何差异通过对话解决以达成最终纳入决定。
筛选遵循三个步骤:首先,通过数据库收集了243篇论文(N = 243)和手动搜索(N = 27)。去除15条重复记录后,255篇论文保留用于标题和摘要筛选。85条记录因缺乏相关性、原创性或非英语而被排除。170篇研究论文进入全文审查。在此阶段,40篇额外论文被排除:18篇涉及AI和禽类监测相关主题,12篇不关注动物科学,10篇被认为方法学上不合适。
数据提取由 lead author 使用在Microsoft Excel中开发的标准化结构化电子表格进行。提取使用五篇纳入研究的子集进行测试,并在进一步数据提取过程中迭代优化以确保完整性和相关性。提取的关键数据字段包括出版年份、研究目标、动物物种、使用的传感器模态、AI模型架构、评估指标、结果和局限性。
由于所选研究的异质性,未进行Meta分析。然而,进行了描述性综合以突出方法学模式、应用、使用案例和技术趋势。这一批判性综合的结果认可了进一步研究的局限性和讨论。
使用纽卡斯尔-渥太华量表(NOS)评估偏倚风险,这是一个经过验证的工具,适用于评估系统综述中的非随机研究。每项研究独立评估三个领域:选择(最多4星)、可比性(最多2星)和结果(最多3星)。对于每项研究,最多可分配9星,更高分数代表更低偏倚风险。
NOS评估在所有纳入研究中进行,使用明确标准和领域特定指标以确保一致性。评分7-9的研究分组为低偏倚论文,评分4-6星为中等风险,低于4星为高风险。在130篇纳入研究中,43%被评为低风险,45%为中等风险,12%为高风险。

1.5. 研究问题

本综述由以下研究问题指导, developed to evaluate the scope, applicability and limitations of ethical implications of multimodal AI systems in enhancing laying hen welfare and productivity in commercial farms.
  • ?
    多模态AI系统如何相比单模态系统改进蛋鸡福利的检测、监测和管理?
  • ?
    不同传感模态在大型真实蛋鸡农场中应用时的优势和局限是什么?
  • ?
    哪些多模态融合策略最适合禽类系统中的实时福利监测,同时考虑局限性?
  • ?
    哪些实际和基础设施障碍限制了多模态AI技术在禽类农场的部署,以及潜在的解决方案是什么?
  • ?
    与持续福利监测相关的伦理和福利考虑是什么,特别是在应激、动物解剖和技术方面?

1.6. 研究空白与贡献

across literature, existing reviews have examined independent sensing modalities and their applications with machine learning. While these unimodal systems are sufficient, they are limited by their ability to capture complex, multidimensional nature of welfare. Multimodal AI has shown promise in other domains such as biomedicine, human activity recognition and cattle welfare. However, comprehensive reviews focused on poultry, particularly laying hens, are scarce.
本综述通过综合130篇研究来评估融合策略,突出与禽类相关的核心传感模态(声学、视觉、热学、环境和生理)的优势和弱点,并引入领域迁移评分(DTS)和数据可靠性指数(DRI)等框架以评估泛化性和传感器稳健性。此外,我们突出禽类特异性多模态AI研究,帮助读者理解当前可用的多模态AI研究状态。这些贡献作为多模态AI在蛋鸡福利中的第一个集成综述,为实施促进积极福利的监测系统奠定了基础。

1.7. 综述结构与流程

本综述以顺序方式组织以促进可读性。它从概念基础移动到应用视角。第1节介绍了禽类福利的背景、禽类应激指标、单模态系统的局限性以及综述的方法学。第2节讨论了各种多模态AI架构和融合策略,突出综述的技术骨干。第3节检查了主要传感模态(视觉、声学、环境和生理),通过突出其优势、局限性和使用案例。第4节将这些技术连接到蛋鸡福利的实际应用。第5节巩固了近期禽类研究的性能指标并引入了新颖的基准测试框架。第6节批判性探索了挑战和未来方向。最后,第7节以多模态数据融合对蛋鸡福利的关键见解和影响结束。这如图3所示,视觉映射了主题流程及其相互连接。

2. 多模态AI架构与融合策略

2.1. 精准禽类养殖融合介绍

精准禽类养殖依赖于利用不同数据模态,如视觉、声学、热学和环境数据,来监测母鸡福利、健康和行为。尽管个体传感器技术成熟,当前实施通常将每种模态孤立对待。这种碎片化方法限制了情境理解,增加了对传感器特定噪声的脆弱性,并降低了泛化能力。
单模态系统在受控设施中有效,但在商业环境中常常退化。例如,基于视频的系统对由群密度、设备和颗粒干扰引起的遮挡高度敏感,限制了其在真实世界农场中的可靠性。这些脆弱性强调了多模态方法的迫切需求,这些方法结合互补数据源以增强系统韧性和容错性,即使一种模态失败。
Derakhshani等人同时使用了视频和惯性测量单元(IMU)数据,但仅将视频流用于行为标注,而依赖IMU数据进行分类。这种模态隔离错过了执行数据级或特征级融合的机会,进而未能利用可增强模型稳健性和语义保真度的跨模态相关性。相比之下,Kate等人展示了多模态融合的力量,通过集成声学、视频和生物识别传感器数据实现对动物福利的更稳健、情境感知的理解,这一原则可直接转移至禽类福利。
多模态融合在人类活动识别、情感识别、医疗应用等领域展示了显著成功。这些应用通常采用深度融合架构,如带有共享中间层的卷积神经网络(CNN)、基于注意力的transformers和基于图的模型,以学习跨模态的联合特征表示。
新兴的基于transformer的架构,如Perceiver IO和Flamingo,通过提供卓越的可扩展性和处理非结构化、异步输入流的能力,重新定义了跨模态学习的 capabilities。这些模型动态处理相关模态特定输入,无需严格时间对齐,这是一个在从禽类农场传感器收集的真实、嘈杂数据中运作良好的优势。在这些系统中,声学传感器可能以kHz速率收集数据,而环境传感器可能每小时更新数据。具有跨模态注意力和时间感知门控的融合架构允许整合多时间数据,实现渐进性福利问题如过热或行为抑制的检测。
另一个经常被忽视的主要问题是各种模态之间的时间分辨率和采样失配。声学传感器通常具有毫秒级分辨率和连续数据收集, enabling granular data collection of vocalization and stress calls, whereas infrared thermography (IRT) often operates in lower frame rates (~1fps) in short bursts, while environmental sensors that capture CO2 and ammonia operate on the scale of minutes or hours due to slow diffusion dynamics of gases and sensors refresh rate. The difference in sampling windows and temporal resolution differences are illustrated in Figure 4. This temporal inconsistency creates alignment issues for the multimodal fusion systems, where synchronous inputs are required for feature concatenation. If these temporal differences are not properly addressed, they can lead to inaccurate predictions or complete model failure.
数据融合在系统稳健性方面展示了巨大改进,特别是在传感器退化、数据缺失或模糊输入信号下。尽管其在禽类系统中的实施仍然稀缺,它提供了一个更稳健的禽类系统。例如,一个结合基于音频的应激信号与热波动以先发制人识别过热或攻击事件的多模态系统可能优于单模态替代方案。
在PLF的其他领域,多模态架构在疾病检测(如牛跛行)、行为跟踪和福利监测中显示出潜力。然而,这些技术的广泛应用仍然有限, primarily due to the inherent complexities of high animal density leading to occlusions, data annotation challenges, rapid growth cycles of poultry and high cost of system implementation relative to poultry’s narrow profit margins.
观察到的广泛研究的缺失令人惊讶, given the well documented limitations of unimodal systems in poultry farms such as inherent lack of context, poor fault tolerance, and varying environmental conditions. A sophisticated multimodal fusion framework could theoretically alleviate these issues, yet not much research has been done within the poultry domain. At the time of this study, no publicly available poultry-specific multimodal dataset exists that integrates even two sensing modalities, thereby emphasizing both the gap and opportunity.

2.2. 融合类别:早期、中间和晚期

多模态融合是精准禽类养殖(PPF)中的一种变革性技术, enabling the integration of heterogenous sensor data such as acoustic, visual, thermal, and environmental, to detect diseases, assess welfare and optimize poultry farm operations. Fusion strategies are typically categorized by the stage which the data streams are fused: early (low-level), intermediate (feature-level), and late (decision-level) fusion (Figure 5). Each approach has unique tradeoffs in information richness, robustness to noise, computational efficiency and real-world feasibility.
2.2.1. 早期融合(低级)
早期融合涉及在特征提取之前直接连接来自每种模态的原始数据。虽然这种方法保留了最高程度的模态特定细节(如时间和空间信号),它在禽类系统中通常不实用。农场传感器的多样性(如不同采样率、 varying spatial resolution、异步数据捕获)引入严重的对齐挑战,可能恶化模型性能并使部署 demanding。早期融合要求所有原始传感器数据转换为单个多维张量,由能够处理高维融合输入的多模态架构摄取,如3D CNN、ConvLSTM或基于transformer的编码器。这一过程需要跨模态的数据标准化和通道深度(如堆叠RGB、热和频谱图)的仔细管理。
尽管有其好处,早期融合要求传感器在同一时间和地点捕获数据,这在禽类农场中由于光照变化、灰尘干扰和多样传感器的固有轮询速率等因素而困难。Martin等人指出,即使轻微的时间错位或模态特定噪声(如麦克风的静态声音或视频馈送中的眩光)的存在可能导致损坏的联合表示。
为解决这一问题,早期融合系统需要广泛的数据对齐和插值预处理。虽然在实验室设置中可行,它在资源受限的边缘设备上带来高计算开销并引入错误。工程师必须采用稳健技术,如模态掩码或自适应重采样层,以模拟和最小化训练期间的传感器漂移或丢失。
多模态学习中的近期研究通过使用可学习对齐模块、时间transformers或信号扭曲层来现代化早期融合,以减少对严格同步的依赖。这些理论上允许原始多模态数据更早融合,同时保留细粒度信号。然而,此类创新解决方案在禽类研究中 largely unvalidated and benchmarked。
Paw?owski等人在非农业领域展示了这一局限,其中晚期融合(准确度 = 0.969)在嘈杂真实世界场景下超越早期融合(0.940)。这些结果直接挑战了早期融合 granularity 的假定主导地位,突出其
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号