基于零样本学习的鲨鱼空中影像追踪与生物特征识别技术FLAIR研究

【字体: 时间:2025年08月04日 来源:Methods in Ecology and Evolution 6.2

编辑推荐:

  本文推荐一种创新的零样本学习框架FLAIR(Frame-Level Alignment and Tracking),通过整合Segment Anything Model 2(SAM 2)的视频理解能力和CLIP的视觉-语言预训练技术,实现了无需标注数据或模型微调的鲨鱼空中影像自动分割。该方法在太平洋护士鲨数据集上Dice分数达0.8,显著优于传统机器学习流程,并能自动提取体长、尾拍频率等生物特征,为海洋生态研究提供高效工具。

  

Abstract

近期无人机技术在海洋动物研究中的广泛应用为从空中影像获取生物信息提供了新机遇。传统机器学习(ML)方法需为每个数据集单独训练模型,耗费大量时间和专业资源。研究团队开发的FLAIR框架创新性地结合SAM 2的视频分割能力和CLIP的跨模态理解特性,实现了无需标注数据或模型微调的零样本(zero-shot)鲨鱼追踪,在太平洋护士鲨数据集中Dice分数达0.8,显著超越传统检测模型,并能自动提取体长、尾拍频率等生物特征。

1 INTRODUCTION

鲨鱼作为关键捕食者在维持海洋食物网平衡中具有重要作用,但过度捕捞等人为威胁导致其种群数量锐减。传统追踪方法如档案标签和水声遥测需要直接接触动物,而诱饵远程水下视频站(BRUVS)仅能记录局部行为。无人机(UAV)系统成为研究海洋动物自愿行为和非侵入式生物特征的新兴手段,可计算体长、身体条件、尾拍频率等关键健康指标。

1.1 Deep learning for marine ecology

传统目标检测模型如YOLO和DETR依赖大量标注数据且泛化能力有限。相比之下,基础模型(foundation models)如SAM 2和CLIP具备零样本迁移能力。本研究首次系统评估这些模型在海洋动物空中影像分析中的应用,开发出能自动对齐视频帧间特征的FLAIR框架。

2 MATERIALS AND METHODS

2.1 Dataset

在哥斯达黎加圣埃伦娜湾两个站点采集的太平洋护士鲨(Ginglymostoma unami)无人机视频构成核心数据集,包含648,000帧3840×2160分辨率影像。另从YouTube获取白鲨(Carcharodon carcharias)和黑鳍礁鲨(Carcharhinus melanopterus)视频测试泛化性。

2.2 Baselines

比较方法包括:逐帧人工标注+SAM 2(Per-frame Prompting)、YOLOv8/DETR目标检测器+SAM 2、Mask R-CNN实例分割模型。其中Mask R-CNN在COCO数据集预训练后微调3000次迭代。

2.3 Human-in-the-loop (HiL) tracking

人工在首帧标注边界框后,由SAM 2自动跟踪分割结果直至目标丢失,需人工重新初始化。

2.4 FLAIR

框架核心流程:

  1. 每秒采样帧通过SAM 2自动生成候选掩膜

  2. CLIP以"shark"等提示词过滤候选区域(概率阈值>0.95)

  3. 在3秒时间窗口内传播并对齐轨迹(IOU阈值>0.7)

  4. 可选人工掩膜修剪消除误报

    全部分析在NVIDIA L40 GPU完成,最小需12GB显存。

2.5 Biometric measurements

从分割掩膜中:

  • 体长:通过Zhang方法骨架化后计算像素距离,按公式转换为实际长度

  • 尾拍频率:识别尾部端点相对中心轴的位移,经Savitzky-Golay滤波后提取波峰间隔

3 RESULTS

3.1 Object detection

在保留测试视频中,FLAIR的mAR@0.1达1.0,显著优于YOLOv8(0.03)和DETR(0)。加入掩膜修剪使mAP@0.1从0.16提升至0.90。

3.2 Shark segmentation

FLAIR在护士鲨视频Dice分数0.807-0.847,与人工标注的HiL方法(0.839)相当。对白鲨和黑鳍礁鲨分别达0.919和0.881,证明跨物种泛化能力。

3.3 Biometrics case study

体长测量误差:

  • 白鲨:自动5.3±0.8m vs 人工5.0±0.8m

  • 护士鲨:1.5±0.1m vs 1.4±0.1m

    尾拍频率平均误差仅2.1%,最大偏差<7%。

3.4 Efficiency comparisons

与传统方法对比:

  • 标注效率:FLAIR仅需5分钟提示调整 vs 27小时边界框标注

  • 计算耗时:5分钟视频处理需54分钟(含19分钟SAM 2自动生成)

  • Mask R-CNN需18分钟但精度较低

4 DISCUSSION

FLAIR突破了传统方法在数据稀缺场景的应用瓶颈,其核心优势在于:

  1. 零样本适应:无需针对新物种重新训练

  2. 多模态融合:CLIP文本提示增强语义理解

  3. 时空对齐:帧间传播减少误报

    局限包括浑浊水域鳍部漏分割、阴影误识别等。未来可结合FLAIR生成伪标签来训练轻量级模型,平衡效率与精度。该框架已成功扩展至陆地动物(格氏斑马),展现了跨生态系统应用的潜力。

这项研究标志着深度学习在生态学应用的重要进展,通过降低技术门槛使科研人员能更专注于生态学发现而非算法开发。随着基础模型的持续进化,类似FLAIR的框架将成为解析复杂生态互作的关键工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号