
-
生物通官微
陪你抓住生命科技
跳动的脉搏
TEMSET-24K:首个高密度标注的经肛门内镜显微手术视频数据集推动手术时间轴分割技术发展
【字体: 大 中 小 】 时间:2025年08月15日 来源:Scientific Data 6.9
编辑推荐:
本研究针对内镜手术视频(ESV)缺乏高质量标注数据的问题,开发了首个包含24,306个微片段的高密度标注TEMSET-24K数据集,采用创新的"阶段-任务-动作"三级标注体系。通过STALNet模型结合ConvNeXt/SWIN V2等编码器,实现了高达0.99的准确率,为手术流程标准化评估和AI辅助手术分析建立了新基准。
在当今医疗实践中,每年全球进行超过3亿例外科手术,但手术并发症仍是全球第三大死亡原因。尤其在内镜手术领域,高清视频以每秒60帧生成超50GB数据,导致存储管理和人工标注成为巨大挑战。更棘手的是,现有数据集普遍存在标注稀疏、规模有限的问题,严重制约了基于AI的手术场景理解技术发展。
针对这一系列难题,英国伯明翰城市大学(Birmingham City University)联合伯明翰大学医院的研究团队在《Scientific Data》发表了突破性研究。他们创建了TEMSET-24K——首个包含24,306个微片段的高密度标注经肛门内镜显微手术(TEMS)视频数据集,采用创新的三级标注体系(5个阶段/12项任务/21个动作),并开发了时空自适应LSTM网络(STALNet)实现精准分割。
关键技术包括:1) 使用Label Studio构建分层标注系统;2) 开发智能采样策略将300万帧浓缩为代表性微片段;3) 设计STALNet整合ConvNeXt/ViT/SWIN V2等编码器;4) 采用多目标损失函数处理阶段-任务-动作的层级关系。研究特别注重临床实用性,所有标注均经皇家外科医师学会认证专家交叉验证。
【数据记录】
团队收集了TEMS手术完整视频(最长6小时/10.34GB),通过FFmpeg压缩处理后,由临床专家使用定制Python库EVR进行标注。最终数据集包含:1) 原始视频和JSON标注文件;2) 30秒微片段(30fps);3) 含剩余手术时间等元数据的CSV文件。
【技术验证】
STALNet在SWIN V2编码器下取得最佳表现,关键阶段如"缝合"准确率达0.99。值得注意的是,模型对低频动作(如"止血")识别较弱,揭示数据不平衡问题。通过ROC曲线分析证实,三级标注体系能有效捕捉手术工作流的时空特征。
这项研究的意义在于:1) 建立了首个开放获取的TEMS视频分析基准;2) 提出的三级标注体系可推广至其他术式;3) EVR工具包支持大规模手术视频管理。未来可延伸至手术技能评估、并发症预警等场景,为提升全球手术质量提供数字化基础设施。研究团队特别强调,所有数据均符合英国GDPR标准,经完全匿名化处理后开放共享,体现了医学AI研究的伦理规范性。
生物通微信公众号
知名企业招聘