
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于无监督学习的全内窥镜视频自动语义分割与手术场景识别方法研究
【字体: 大 中 小 】 时间:2025年08月29日 来源:International Journal of Computer Assisted Radiology and Surgery 2.3
编辑推荐:
为解决结肠镜检查视频数据量大、非信息帧多导致的临床回顾效率低问题,O. Leon Barbed团队提出基于BYOL框架的无监督描述符学习与聚类方法,实现手术动作检测(Recall@50%达80.7%)和可视性分级(信息帧分类精度93%),显著提升3D重建等下游任务效率。
在消化道疾病筛查日益普及的今天,结肠镜检查作为胃肠道疾病诊断的金标准,每年产生海量视频数据。然而这些长达30分钟以上的检查视频中,约35%的帧因镜头接触肠壁、液体遮挡等原因毫无诊断价值,临床医生需要耗费大量时间筛选有效片段。更棘手的是,传统人工智能算法如3D重建(Structure from Motion)直接处理原始视频时,会因噪声帧干扰导致计算资源浪费和结果失真。如何自动识别手术关键帧(Surgery)和优质可视帧(High quality),成为提升临床工作效率和算法精度的关键突破口。
来自西班牙萨拉戈萨大学的研究团队在《International Journal of Computer Assisted Radiology and Surgery》发表创新成果,提出基于自监督学习的端到端解决方案。该方法采用BYOL(Bootstrap Your Own Latent)框架训练ResNet50网络,从16万帧结肠镜图像中提取2048维描述符,通过K-means聚类(k=100)自动发现4大类场景:含手术工具帧(6个聚类)、高质量可视帧(35个聚类)、中等质量帧(25个聚类)和非信息帧(34个聚类)。针对手术检测任务设置400帧滑动窗口(W=400)和阈值(t=6.3),对可视性评估采用双重置信度校验(R=0.95)和时序一致性滤波(M=40帧)。
主要技术方法
使用BYOL框架训练ResNet50网络,输入224×224中心裁剪帧
对233015帧训练集进行K-means聚类(k=100,迭代300次)
人工标注生成层级标签体系(Informative/Non-informative→4细分类)
手术检测采用移动平均滤波(W=400)和距离阈值(t=6.3)
可视性分类设置相对距离阈值(R=0.95)和短片段过滤(P=80帧)
研究结果
Class discovery and classification setup
通过聚类分析发现100个视觉模式中,66个属于信息类(含6个手术工具聚类),34个属非信息类。标注一致性达91%,证明描述符能有效捕捉语义差异。
Surgical action detection and visibility estimation
在5段测试视频中:
手术检测Recall@1达97.5%(仅漏检1次动作)
手术片段覆盖率Recall@50%为80.7%
二分类可视性评估精度93%(信息帧)、92%(非信息帧)
细分类中高质量帧召回率60%,主要误判为中等质量帧
Preprocessing for downstream tasks
在Seq_003视频中,COLMAP重建点云全部位于系统标注的Informative区段,验证了该方法可节省35%计算量。
结论与意义
该研究首创了内窥镜视频的"语义地图"构建方法,通过自监督学习突破传统需要预定义标签的限制。其价值体现在:
临床层面:医生回顾视频时间可缩短10分钟/例,手术关键帧漏检率仅2.5%
算法层面:为3D重建(如SD-DefSLAM)、息肉检测等任务提供可靠预处理
方法论层面:验证了BYOL在医疗视频的迁移潜力,为EndoFM等基础模型提供新思路
未来可通过扩展语义类别(如出血、息肉等)进一步释放该方法价值,其框架已展示出向胃镜等其它内窥镜检查的推广潜力。
生物通微信公众号
知名企业招聘