"SLAM数据集：推动腹腔镜手术动作识别的多模态开放数据库与ViViT模型验证"

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月25日 来源：Scientific Data 5.8

编辑推荐：

　　为解决腹腔镜手术动作识别领域数据集规模小、同质性高、标注质量不一等问题，上海交通大学医学院附属瑞金医院卢湾分院联合多家机构开发了包含4097个视频片段的SLAM数据集，涵盖胆囊切除术等7类核心手术动作。研究采用ViViT模型验证，最高分类准确率达85.90%，为智能手术机器人和AI辅助手术提供了标准化基准资源。

腹腔镜手术凭借微创、恢复快等优势已成为普外科主流术式，但高度依赖术者操作技巧。当前计算机视觉和深度学习技术在手术动作识别领域进展显著，却受限于公开数据集的小规模（如LapGyn4仅3万张图像）、单一术式（如HeiChole仅聚焦胆囊切除术）和标注不一致等问题。这些瓶颈严重制约了AI模型在真实手术场景中的泛化能力，阻碍了智能手术导航系统和自动化器械的发展。

上海交通大学医学院附属瑞金医院卢湾分院联合中国科学院软件研究所等机构的研究团队，在《Scientific Data》发表了题为"A Comprehensive Video Dataset for Surgical Laparoscopic Action Analysis"的研究。该工作构建了目前最全面的腹腔镜手术动作数据集SLAM（Surgical LAparoscopic Motions），包含7类基础动作（如Abdominal Entry、Hook Cut等）的4097个标准化视频片段，覆盖胆囊切除、阑尾切除等9种术式。通过ViViT（Video Vision Transformer）模型验证，该数据集最高实现85.90%的分类准确率，显著优于现有基准。

研究采用四大关键技术：1）多中心手术视频采集（1920×1080分辨率/25fps，含26003BA HOPKINS 30°内窥镜设备）；2）三级医疗专家标注体系（由副主任医师初标、主任医师复核）；3）时空分块处理（统一为30帧片段）；4）跨术式迁移学习验证（测试集含胸腔镜手术数据）。

【背景与意义】
研究团队系统分析了7个主流数据集的局限性：ESAD仅16小时前列腺癌手术视频，CholecT50未公开测试集。SLAM创新性地纳入34例患者（50%女性，BMI 23.6±6.0）的多术式数据，包括1例胸腔镜手术（VATS）用于跨域验证。这种设计首次实现了"胆囊切除术-肺段切除术"的动作特征迁移，证明AI模型可突破单一术式限制。

【数据特征】
视频标注聚焦7个高频动作：

Abdominal Entry（腹腔入路）：关键但单例仅1次操作
Hook Cut（电钩切割）：精度要求最高的动作（ViViT识别率96.69%）
Panoramic View（全景视野）：与Local Panoramic View存在15%误判
数据分布呈现长尾特征，Use Clip（968例）和Suction（1033例）占比过半，而Panoramic View仅180例。

【技术验证】
ViViT模型在16帧/768像素配置下表现最优：

时间维度：16帧比8帧提升Hook Cut识别率7.43%
空间维度：768像素使PanoView准确率翻倍（71.43% vs 32.14%）
跨术式实验显示，混合训练使胸腔镜数据识别率提升21.87%（65.62% vs 43.75%），证实多术式数据增强价值。

【质量管控】
通过哈希加密患者ID、删除所有PII（个人身份信息）、添加伪影标注文件等措施确保伦理合规。三级医师审核机制使标注错误率降至1%，显著优于LapGyn6-Actions等数据集。

该研究创建了首个支持多术式迁移学习的腹腔镜动作数据库，其创新性体现在：1）首次包含"腹腔镜-胸腔镜"跨模态验证；2）提出循环填充（looping strategy）处理不等长视频；3）公开未剪辑片段的起止帧信息。这些突破为手术技能评估、实时导航系统开发提供了不可替代的资源，尤其对国产手术机器人（如微创^?机器人）的算法优化具有战略意义。未来可通过扩展Action Triplets（动作三元组）标注进一步细化动作语义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号