AI驱动的腹腔镜肝切除术实时安全评估与质控系统开发及多中心验证

【字体: 时间:2025年10月09日 来源:Frontiers in Oncology 3.3

编辑推荐:

  本研究开发并验证了一种用于腹腔镜半肝切除术的智能手术辅助系统(ISA),该系统集成器械追踪、器官分割和手术阶段分类等多任务AI算法,在实时性(≥30 FPS)与准确性(阶段分类平均AUC>0.87)方面表现卓越。通过大规模多中心数据集(403手术视频/142,861标注帧)训练和外部验证,证明其能显著降低术者间识别差异(变异系数降至14.3%),为腹腔镜肝脏手术的标准化质控和实时决策支持提供了创新性解决方案。

  
引言
自1987年Philippe Mouret完成首例腹腔镜胆囊切除术以来,微创技术已在从简单择期手术到肿瘤切除等复杂手术中得到广泛应用。手术机器人系统(如2000年FDA批准的da Vinci系统)通过提供3D高清视野、腕式器械和震颤过滤功能,显著提升了手术精度。临床研究证实,相较于开放手术,微创和机器人手术具有更低的围手术期并发症发生率(从15.2%降至9.8%)、更短的平均住院时间(减少2.3天)和更轻的术后疼痛(VAS评分降低1.7分)等优势。
然而传统腹腔镜技术仍面临"支点效应"(trocar支点下的反向运动)、有限的触觉反馈和二维手术视野等挑战,特别是在解剖致密粘连或复杂解剖结构时尤为困难。术者的认知误差和疲劳可能影响手术结果,而人工智能(AI)系统与腹腔镜技术的整合有望带来更多外科获益。
虽然AI模型在器械追踪或解剖分割等离散任务中已取得显著成功,但关键挑战在于将这些功能整合到单一协同系统中,并同时保持多任务高精度和临床所需的实时推理速度。为此,本研究开发并验证了用于腹腔镜半肝切除术的智能手术助手(ISA),该系统专为同步执行器械追踪、器官分割和手术阶段分类而设计,且在以临床可行的帧率运行。
方法
研究设计与伦理
本观察性研究未对标准腹腔镜半肝切除术之外进行额外干预。所有患者数据在分析前均经过匿名化处理,符合当地数据隐私法规和《赫尔辛基宣言》。数据使用经西安交通大学临床研究伦理委员会批准(批准日期:2023年7月15日,批准号:XJTU1AF2023LSK-429)。所有患者(年龄>18岁)均同意为研究目的录制手术过程,所有参与外科医生均提供了对其手术视频用于工作流评估和帧识别回顾性使用的知情同意。视频数据回顾性收集时间为2023年8月30日至2024年8月7日。
数据集构建
本研究纳入了2023年8月至2024年8月期间接受腹腔镜半肝切除术的403例患者,从4个参与中心获得了403个手术视频。纳入标准包括:成年患者(年龄>18岁);接受择期腹腔镜半肝切除术;可获得完整、高质量的手术视频记录;提供视频数据研究使用的知情同意。排除标准包括:急诊手术;因非肿瘤原因(如设备故障)中转开腹手术;既往有上腹部大手术史;视频因技术问题或质量差而有大部分内容模糊不清。
通过严格的两步质量控制流程构建内部深度学习队列。首先由初级外科医生(PZY, YY, PHQ, MYT, LYT)根据预定义的视觉标准为每个关键手术阶段选择代表性帧,确保解剖清晰度。每个选定的帧还必须满足超过50%的清晰识别置信度。随后由高级外科医生(XJX, GK, LXM, LY)进行第二步审查和监督,定性验证每帧是其指定阶段的高质量代表示例,并应用更严格的定量阈值(排除最终置信度低于90%的任何帧)。这一严格的质量控制过程导致5,934帧被排除,最终保留136,927个高置信度帧用于注释。
使用LabelMe软件以不同颜色为每个保留帧注释分割掩模,突出显示关键区域如肝实质(主要目标)、胆道结构、主要血管、手术器械和背景结构。使用Fleiss‘ Kappa评估审查过程的操作者间一致性,在随机选择的10%注释帧子集上计算的Kappa值为0.88(p<0.001),表明几乎完全一致。
每个注释帧随后根据手术阶段进行标记,数据集经过分层以确保五个主要手术阶段(阶段1-5)的代表性。为增强模型的泛化能力,研究采用了10折交叉验证技术,将数据集分为10个子集,每个子集依次作为测试集,其余九个子集用于训练。
ISA的AI模型训练
研究设计了一种混合分割和多任务联合学习的深度学习模型。输入帧(1920×1080分辨率)首先通过"分割与分支"语义分割模块处理,以识别和掩模关键解剖结构。将得到的掩模与原始图像融合并输入预训练的ResNet-50主干网络以提取深度特征(从Conv5_x阶段提取2048维特征)。ResNet的层(Conv1到Conv5_x)按层次顺序运行以提取特征:上层捕获低级边缘和纹理,而更深层建模复杂器官和器械。分割掩模强调显著区域,使ResNet能够选择性捕捉器械形状或肝组织纹理。
该模型架构专门为计算效率而设计,以确保其在实时临床环境中的实用性。这种效率主要通过共享特征提取器和轻量级预测分支实现。通过使用单个ResNet-50主干生成所有下游任务的共享特征,有效避免了运行多个独立模型产生的冗余计算。
从这些共享主干特征中,两个轻量级全连接分支同时(1)确定手术阶段(阶段0-5)和(2)评分图像清晰度。模型在NVIDIA Tesla V100 GPU上使用PyTorch进行训练,实现了平均每帧约52毫秒的推理延迟(相当于19.2 FPS),足以生成术中实时反馈。阶段分类分支输出6个阶段的概率分布,而质量分支预测反映可见性(烟雾、出血等)的标量清晰度评分。研究在两个任务中采用联合损失优化,使共享特征能够同时有益于阶段识别和清晰度评估。
评估指标
使用标准目标检测指标评估模型性能。AP50、AP75和AP50:95分别表示在交并比(IoU)阈值为0.5、0.75和0.5至0.95平均值(步长=0.05)下的平均精度(AP)。AP计算为精确率-召回率(PR)曲线下面积。此外,APM和APL分别衡量中型和大型物体的检测精度,遵循COCO评估协议。帧率(FPS)反映推理速度和计算效率。
统计分析
根据准确率、精确率、召回率和F1分数评估ISA的性能。阶段识别结果也在混淆矩阵中汇总。为确保性能优于随机分配,使用卡方检验(p<0.05)验证阶段分类结果的统计显著性。
腹腔镜肝切除五个关键术中阶段的清晰度评分系统
定义了一个三点系统(0-2)用于评分腹腔镜肝切除术五个阶段中每个阶段的清晰度,包括:阶段1(术中肝脏超声)、阶段2(第一肝门解剖)、阶段3(第二肝门解剖)、阶段4(肝中静脉暴露)和阶段5(肝断面电凝止血)。阶段0设置为非关键背景阶段。对于每个阶段,评分2代表解剖结构完全可视化和相机最佳位置,1表示部分解剖暴露或次优位置,0表示无法区分的解剖结构或视野受阻(如烟雾、血液、镜头偏离目标)。该评分系统的临床有效性根植于其由资深肝胆外科医生开发及其与术中安全性的直接相关性。
结果
阶段分类
ISA在分类五个关键阶段方面表现出平均91%的准确率(p<0.001)。对一个代表性测试案例的阶段识别结果显示,ISA正确匹配了大多数帧的阶段,阶段1准确率为89.0%,阶段5为90.5%,表明其在阶段分割方面具有高可靠性。错误分类很少(任何非对角线<8%),主要发生在两个阶段之间的过渡帧中。总体而言,该模型能够清晰区分腹腔镜半肝切除术的主要程序步骤,每个阶段的召回率>82%。
虽然总体错误分类很少(任何非对角线<8%),但对混淆矩阵的仔细分析显示,最常见的错误分类发生在阶段3和阶段0之间(11.4%),表明第二肝门解剖的最后时刻在视觉上可能类似于非关键操作步骤。类似地,在阶段2和阶段0之间也观察到一些混淆(8.2%)。这些特定的过渡错误突出了未来模型改进的关键领域。
关键手术阶段模型的空间焦点
为研究关键操作任务期间模型的视觉注意力,分析了其在两个代表性阶段(第一肝门阻断和肝蒂解剖)的多层次特征提取。网络通过从原始腹腔镜图像提取局部纹理和解剖边界,逐渐构建语义表示。在肝门阻断阶段,激活图集中在门静脉和血管钳夹部位周围,成功捕获了肝三联的汇合区。在肝蒂解剖阶段,模型的焦点转向肝动脉和胆管轨迹,与外科医生的操作视野良好对齐。最终输出热图在手术操作区域精确定位显示高强度响应,反映了网络准确的解剖理解。这些注意力分布与术中目标紧密对齐,表明在解剖复杂环境中有效的特征学习。
图像清晰度评估
ISA在判断每个阶段图像清晰度方面的精确率、召回率、F1分数、特异性和总体准确率均表现良好。ISA在阶段1达到最高AUC(0.96),表明其区分阶段1的能力最强。相比之下,在阶段3观察到最低AUC(0.87)和最低准确率(0.85),表明其在识别阶段3程序方面性能相对较弱。
多队列ISA性能
验证队列结果显示,ISA在阶段1达到最高AUC(0.9598),其次是阶段5(0.93)、阶段4(0.92)、阶段2(0.9137)。在阶段0和阶段3,AUC略低(分别为0.8839、0.8776),反映了ISA相对较弱但仍可靠的判别能力。
值得注意的是,ISA在整个手术过程的所有阶段均达到0.87以上的AUC值,表明无论阶段如何,对手术视频中关键帧识别具有强大且一致的判别能力。此外,识别静态背景和动态关键阶段的性能显示出显著差异,表明更高程度的视觉复杂性(即更丰富的视觉信息)可以实现更准确的识别,因为在活跃手术场景中,ISA在读取帧方面表现出更强的性能。总体而言,每个阶段持续高的AUC值证明了模型稳定的判别能力。
模型性能
研究方法在大多数评估指标上获得最佳性能。具体而言,它在AP50(95.2%)、AP75(65.4%)和AP50:95(62.1%)方面获得最高值,优于第二佳方法SurgeNet 2-4个百分点。它在APL(64.8%)方面也排名第一,表明在检测大型解剖结构方面性能更好。虽然SurgeNet实现了略高的APM(55.6%),但研究方法保持在54.3%,在不同物体尺度上表现出 consistent 性能。
关于效率,模型实现了19.2 FPS的帧率,显著快于其他方法如TransUNet(15.3 FPS)和DeepLabv3+(10.1 FPS)。这表明方法不仅准确,而且适用于临床场景中的实时应用。
模型的PR性能表现良好。与几个基线的比较表明,方法在不同召回水平上始终保持更高的精确率。此外,即使在更严格的IoU阈值(如0.85和0.9)下,模型也保持稳健性能,反映了其强大的空间定位能力。
总之,结果验证了方法在检测精度和推理速度方面的有效性和稳健性,突出了其在现实世界医学图像分析任务中的潜力。
整个手术时间线的时序阶段预测
进一步评估了模型在整个腹腔镜肝切除术过程中的时序预测性能,将手术分为五个连续阶段,并将模型输出与专家注释的真实值进行比较。在没有后处理的情况下,模型能够重现一般阶段顺序,尽管在过渡边界(特别是在第二肝门解剖和门静脉解剖阶段之间)发生了轻微错误分类。应用时间平滑和过渡约束后,预测的阶段序列表现出改进的连续性、减少的碎片化以及与手术注释更好的对齐。在低运动帧(如切除后止血观察)中,模型保持稳定预测,表明即使在视觉模糊区间也具有可靠的时序意识和节奏阶段建模。
独立外部验证队列的性能
为严格评估模型的泛化能力,在一个完全独立的内部验证队列上评估其性能,该队列包含来自未用于训练中心的122个手术视频。ISA无需任何重新训练或微调即应用于此未见数据集。
在此外部队列上,模型表现出强大且一致的性能,实现了89.5%的平均阶段识别准确率,与内部交叉验证中观察到的91%准确率相当。关键性能指标,包括精确率、召回率和F1分数,也保持稳健,确认模型没有过拟合训练数据,可以有效地泛化到不同的手术团队和环境。
讨论
ISA系统的开发和多中心验证直接解决了最近外科AI文献中强调的几个关键挑战。虽然许多研究专注于单任务卓越性,但方法强调了一个多任务框架,该框架保持实时性能,这是临床采用的关键要求。此外,通过创建大型多中心数据集并在独立外部队列上严格验证模型,有助于解决数据稀缺和模型泛化性问题,这些问题经常被引用为该领域的主要障碍。因此,工作代表了将AI从研究概念转化为临床有价值工具的重要一步,正如最近综述所设想的那样。
与先前用于腹腔镜手术的单任务AI系统(如仅专注于工具追踪或静态分割的系统)相比,ISA实现了术中视觉信息的全面整合。关键阶段的平均分类准确率超过89%,AUC持续高于0.87。值得注意的是,方法在分割精度(AP50:95.2%)和帧率(19.2 FPS)方面均优于SurgeNet、TransUNet和EndoViT,不仅提供精度,而且提供真实手术环境中的实用可操作性。这些指标共同支持ISA作为实时临床决策支持工具的可靠性。
从肿瘤学角度来看,实现精确解剖暴露和可靠的术中阶段控制对于肝癌切除至关重要。ISA评估阶段特异性图像清晰度和检测关键程序转换(如肝门解剖和止血)的能力可能直接有助于完全肿瘤切除和减少术中并发症。通过在视觉清晰度受损时实时提醒外科医生,系统旨在减轻在视觉不充分情况下横断组织的风险。这一功能是否最终转化为残留肿瘤发生率的降低,值得在未来前瞻性研究中调查。虽然研究未评估长期肿瘤学结果,但将ISA整合到肝胆工作流程中可能最终转化为降低切缘阳性率和提高手术根治性,值得未来研究。
尽管结果令人鼓舞,但本研究有几个局限性。主要限制是验证仅限于准确性和速度的技术指标,而不是临床终点。虽然系统准确识别手术阶段和评估图像清晰度的能力表明其具有提高安全性的强大潜力,但未测量其对手术时间、出血量或并发症发生率等结果的直接影响。因此,ISA的临床益处仍然是一个有充分依据的假设,需要在未来的前瞻性随机对照试验中进行严格验证。其次,虽然数据集相对较大且多机构,但可能无法完全捕获所有术中环境的异质性,特别是在涉及血管侵犯或肝硬化肝脏的复杂肿瘤切除中。第三,当前的ISA系统完全依赖内窥镜视频输入;整合多模态数据(如术中超声或荧光成像)可能会进一步提高决策准确性。
总之,提出的ISA在腹腔镜肝脏手术中的阶段特异性分析方面表现出高准确性、稳健性和实时响应能力。参与外科医生的初步反馈表明,系统增强了术中决策,特别是通过澄清关键转换(如止血和肝门解剖)。这项例证了AI如何弥合实时内窥镜成像和外科决策之间的差距,支持程序一致性和情境意识。
然而,重要的是要承认模型的潜在局限性和"故障模式",特别是在具有挑战性的临床场景中。由于系统依赖视觉输入,其性能可能受到完全遮挡相机的严重术中出血、改变典型解剖结构的再手术广泛粘连或训练数据中未充分代表的罕见解剖变异的损害。应对这些挑战将是未来模型改进的关键方向,对于确保系统在全方位手术情况下的可靠性至关重要。
尽管有这些考虑,随着持续优化和整合到临床工作流程中,ISA具有提高术中安全和标准化手术程序的强大潜力——特别是在精度和切缘控制至关重要的肿瘤学背景下。值得进行未来前瞻性试验以评估其对手术时间、并发症发生率和长期肿瘤学结果的临床影响。最终,由ISA展示的智能视觉系统可以作为未来集成平台的基础组件,为微创肿瘤手术提供智能术中导航和质量控制。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号