基于多模态对比学习的无监督手术视频语义表征方法SurgVLP及其在零样本任务中的应用

【字体: 时间:2025年06月13日 来源:Medical Image Analysis 10.7

编辑推荐:

  为解决手术计算机视觉领域依赖人工标注数据、泛化性受限的问题,研究人员提出SurgVLP框架,通过自动语音识别(ASR)系统从开放手术教学视频中提取视觉-文本对,构建多模态对比学习目标。该研究在7类手术任务中实现零样本迁移,检索任务Recall@10达25.1%,为降低标注成本提供新范式。

  

手术计算机视觉领域长期面临标注数据稀缺的瓶颈。传统方法依赖人工标注视频帧来识别手术工具、阶段或动作三元组(instrument-verb-target triplet),但这种方式成本高昂且难以泛化到新术式。更关键的是,现有模型多为单模态(视觉)设计,未能利用手术教学中丰富的语言描述信息。法国斯特拉斯堡大学和德国慕尼黑工业大学的Kun Yuan、Vinkle Srivastav等研究者注意到,开放平台的手术教学视频天然包含视觉操作与语音讲解的对应关系,可作为自监督信号的宝库。

研究团队创新性地提出SurgVLP框架,通过整合AWS Medical Transcribe和Whisper双ASR系统的转录文本,构建视频片段-多文本对的对比学习目标。其中AWS擅长医学术语识别,Whisper则捕捉句子结构,二者互补形成鲁棒的语言监督。采用ResNet-50和BioClinicalBert分别编码视觉和文本特征,通过InfoNCE和MIL-NCE损失函数对齐多模态嵌入空间。在1.4万例手术视频预训练后,模型在Cholec80和CholecT45数据集上实现零样本迁移。

关键技术包括:1)基于ASR的时间对齐技术,从视频讲座生成25,578个视频片段-文本对;2)多视图对比学习架构,同时优化AWS片段(InfoNCE)和Whisper句子(MIL-NCE);3)提示工程,将下游任务标签转化为描述性语句(如"用剪刀切割")以适配预训练语义空间。

研究结果方面:

  1. 多模态任务表现:在文本-视频检索任务中,SurgVLP的Recall@10达25.1%,显著优于CLIP的2.3%。图4显示模型能准确关联"肝牵开器"等专业术语与视觉内容。
  2. 零样本迁移能力:在Cholec80数据集上,手术阶段识别平均F1-score达24.0%,其中胆囊提取阶段(P7)识别率15.5%,比CLIP提升11.1个百分点(表9)。工具识别中标本袋(T7)AP值达64.9%(表8)。
  3. 文本生成应用:通过仅文本训练的解码器,模型生成的手术视频描述BLEU-4得分0.12,ROUGE得分0.33(表7),图8显示其能准确描述"pledgets(止血垫)"等专业器械。

讨论指出,这是首个证明多模态预训练可无监督识别手术工具、阶段和三元组的研究。虽然零样本性能仍低于全监督模型(如三元组识别mAP 7.0% vs 30.8%),但其意义在于:1)验证了教学视频作为自监督资源的可行性;2)双ASR策略将医疗术语错误率降低63%;3)为手术室智能辅助系统(如实时问答、报告生成)奠定基础。未来可通过结合少量标注样本的微调策略,进一步缩小与全监督方法的差距。该成果发表于《Medical Image Analysis》,为手术AI提供可扩展的新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号