
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多模态对比学习的无监督手术视频语义表征方法SurgVLP及其在零样本任务中的应用
【字体: 大 中 小 】 时间:2025年06月13日 来源:Medical Image Analysis 10.7
编辑推荐:
为解决手术计算机视觉领域依赖人工标注数据、泛化性受限的问题,研究人员提出SurgVLP框架,通过自动语音识别(ASR)系统从开放手术教学视频中提取视觉-文本对,构建多模态对比学习目标。该研究在7类手术任务中实现零样本迁移,检索任务Recall@10达25.1%,为降低标注成本提供新范式。
手术计算机视觉领域长期面临标注数据稀缺的瓶颈。传统方法依赖人工标注视频帧来识别手术工具、阶段或动作三元组(instrument-verb-target triplet),但这种方式成本高昂且难以泛化到新术式。更关键的是,现有模型多为单模态(视觉)设计,未能利用手术教学中丰富的语言描述信息。法国斯特拉斯堡大学和德国慕尼黑工业大学的Kun Yuan、Vinkle Srivastav等研究者注意到,开放平台的手术教学视频天然包含视觉操作与语音讲解的对应关系,可作为自监督信号的宝库。
研究团队创新性地提出SurgVLP框架,通过整合AWS Medical Transcribe和Whisper双ASR系统的转录文本,构建视频片段-多文本对的对比学习目标。其中AWS擅长医学术语识别,Whisper则捕捉句子结构,二者互补形成鲁棒的语言监督。采用ResNet-50和BioClinicalBert分别编码视觉和文本特征,通过InfoNCE和MIL-NCE损失函数对齐多模态嵌入空间。在1.4万例手术视频预训练后,模型在Cholec80和CholecT45数据集上实现零样本迁移。
关键技术包括:1)基于ASR的时间对齐技术,从视频讲座生成25,578个视频片段-文本对;2)多视图对比学习架构,同时优化AWS片段(InfoNCE)和Whisper句子(MIL-NCE);3)提示工程,将下游任务标签转化为描述性语句(如"用剪刀切割")以适配预训练语义空间。
研究结果方面:
讨论指出,这是首个证明多模态预训练可无监督识别手术工具、阶段和三元组的研究。虽然零样本性能仍低于全监督模型(如三元组识别mAP 7.0% vs 30.8%),但其意义在于:1)验证了教学视频作为自监督资源的可行性;2)双ASR策略将医疗术语错误率降低63%;3)为手术室智能辅助系统(如实时问答、报告生成)奠定基础。未来可通过结合少量标注样本的微调策略,进一步缩小与全监督方法的差距。该成果发表于《Medical Image Analysis》,为手术AI提供可扩展的新范式。
生物通微信公众号
知名企业招聘