综述:人工智能在消化内镜培训中的应用——过去、现在与未来
《Digestive Endoscopy》:Artificial Intelligence in Digestive Endoscopy Training—The Past, Present, and Future
【字体:
大
中
小
】
时间:2025年10月28日
来源:Digestive Endoscopy 4.7
编辑推荐:
本综述系统回顾了人工智能(AI)在消化内镜培训中的应用现状与前景,重点探讨了AI在腔内内镜、肝胆内镜、胶囊内镜及治疗内镜等领域如何通过提升质量指标、增强病变检测及引导解剖标志识别来优化技能培训。文章指出当前应用多为任务导向型,未来AI需向提供全面培训及个性化绩效追踪方向演进,同时强调了解决技能退化、过度依赖等伦理与实践挑战的必要性。
摘要
人工智能(AI)正在重塑胃肠内镜领域,但其在培训中的作用尚待深入探索。本叙述性综述总结了当前AI辅助内镜培训的证据,探讨了潜在缺陷,并展望了未来方向。通过系统性检索MEDLINE数据库(涵盖从创刊至2025年1月的文献),最终纳入27项研究。结果表明,AI通过改善质量指标、增强病变检测和引导解剖标志识别,在各类内镜(包括腔内、肝胆、胶囊和治疗性内镜)培训中展现出潜力。然而,当前应用主要集中于特定任务。未来的AI需发展为不同经验水平的内镜医师提供全面培训和个性化绩效追踪。需进一步研究评估客观教育成果和成本效益。AI应用的关键问题,包括技能退化、过度依赖、伦理考量及实用性,应通过结构化实施、质量保证和监管框架加以解决。
1 引言
1.1 过去——AI发展史
人工智能的概念于20世纪50年代首次被提出,旨在利用计算机模拟人类智能执行多种任务。过去几十年间,AI领域逐渐从机器学习演进到深度学习和卷积神经网络(CNN),这使得复杂图像和视频的分析成为可能,并催生了医学领域的多样化应用。在胃肠(GI)内镜领域,AI的应用始于计算机视觉辅助的结肠息肉检测,随后在上消化道内镜、肝胆内镜、胶囊内镜及先进治疗技术方面涌现出诸多创新。
1.2 内镜医师的看法
既往研究表明,尽管大多数内镜医师对AI在内镜中的应用持积极态度,但其接受度因个人经验和具体场景而异。一项来自美国的调查显示,大多数内镜医师对AI辅助技术,尤其是计算机辅助息肉检测(CADe)表现出浓厚兴趣。超过半数的内镜医师支持利用计算机辅助诊断(CADx)进行息肉分类的“诊断即离开”策略。然而,他们也对其潜在缺点表示担忧,包括成本增加、操作者依赖性以及手术时间延长。类似地,亚太地区的一项调查表明,内镜医师对AI辅助结肠镜检查管理结直肠息肉表现出高度接受度和信任度,其中对CADe的信任度最高,其次是CADx和计算机辅助干预(CADi)。风险感知、接受度与信任度在胃肠病学实践中AI采纳的关系是复杂的。出乎意料的是,经验较少的内镜医师比经验丰富的内镜医师表现出更强的风险感知。
2 目的
AI对内镜培训的影响尚未被完全理解,将AI整合入培训课程面临诸多障碍。本叙述性综述旨在总结当前关于AI辅助内镜培训的证据,并探讨AI驱动教育的效能、AI应用的潜在缺点以及未来实施方向等关键方面。
3 方法
3.1 检索策略
本叙述性综述通过系统性检索MEDLINE数据库进行。纳入从创刊至2025年1月31日发表的英文文章。检索策略结合了AI(“人工智能”、“深度学习”、“机器学习”、“神经网络”、“计算机辅助”)、培训(“培训”、“教育”)和内镜(“腔内内镜”、“胶囊内镜”、“肝胆内镜”、“治疗性内镜”)等相关术语。初检共获得1443篇文献,去除重复后,排除了1250篇非GI内镜研究。剩余的193篇全文由两位作者独立进行人工筛选以确保相关性。最终纳入27项研究(11项RCT和16项前瞻性研究——8项涉及腔内内镜,9项涉及肝胆内镜,5项涉及胶囊内镜,5项涉及先进治疗技术)。
4 结果——现状概览
4.1 腔内内镜
4.1.1 计算机辅助检测(CADe)
目前,用于结肠息肉检测的CADe是腔内内镜中发展最成熟、验证最充分的AI应用。多项随机试验强调了CADe的潜在益处,最近一项荟萃分析表明,无论病灶位置、大小和形态如何,AI辅助结肠镜检查均能显著提高腺瘤检出率(ADR)。虽然这些研究大多涉及经验丰富的内镜医师,但其中一些特别评估了其在经验不足操作者中的表现,这与内镜培训和教育尤为相关。一项欧洲研究表明,与非AI辅助组相比,使用CADe的非专家内镜医师的ADR和每次结肠镜检查腺瘤数(APC)分别提高了22%和21%。随后,香港团队进行的一项随机试验专门评估了CADe对培训医师的益处。使用CADe的培训医师相较于未使用者,ADR绝对提高了13%,相对提高了41%。亚组分析显示,对最资浅的培训医师影响更大——新手医师的ADR相对提高了58%,中级水平培训医师相对提高了36%。另一项日本的临床试验比较了培训医师在结肠镜检查中使用联合CADe和CADx系统与标准观察的效果。AI辅助组的腺瘤漏诊率(AMR)显著更低,且在病理识别或位置判读方面得分更高。此外,一项中国研究比较了有或无AI辅助的新手内镜医师与专家。AI辅助的新手内镜医师的表现优于未辅助者,并且在AMR和息肉漏诊率方面达到了与专家相当的水平。这些一致且充满希望的结果支持了将AI整合到结肠镜培训中的潜力,尤其是在职业生涯早期,以提升整体学习体验和质量控制。
4.1.2 计算机辅助诊断(CADx)
继CADe之后,用于区分肿瘤性和非肿瘤性息肉的CADx系统已在多项前瞻性研究和荟萃分析中得到提倡。然而,其在内镜培训中的作用仍不明确。Peng等人进行的一项初步研究表明,CADx将培训医师区分息肉特征的阴性预测值(NPV)从50.0%显著提高至88.2%。类似地,Weigt等人报告称,使用CADx的非专家内镜医师达到了与专家相当的准确度,提示其对培训医师的潜在价值。与之相反,Rex等人发现,在评估用于普通内镜医师(涵盖所有经验水平)的CADx系统时,敏感性未见有意义改善,特异性仅边际提高。考虑到这些异质性结果,CADx在内镜培训中的作用存在不确定性,需要进一步验证。
4.1.3 计算机辅助质量评估(CAQ)
除了众所周知的CADe和CADx,腔内内镜领域的其他新型AI驱动技术也具有增强内镜培训的潜力。计算机辅助质量评估(CAQ)系统可以实时评估内镜操作表现,为培训医师提供可操作的反馈以改进手术技能。这些系统通常评估质量指标,如盲点识别、退镜速度、有效退镜时间、运动模式以及黏膜皱襞检查质量。此外,还提出了一种AI驱动的自动报告系统,以简化内镜文档流程并提高准确性。这些技术创新说明了AI在增强内镜培训、决策和工作流程效率方面不断扩大的作用。然而,由于现有的真实世界证据有限,需要更多的临床试验来证明其潜在益处。
4.2 肝胆内镜
4.2.1 超声内镜(EUS)
AI在超声内镜(EUS)培训中的应用在三个关键领域取得进展:结构/站别识别、病变诊断和质量控制。Robles-Medranda等人开发了一种能够识别预录视频和实时EUS中正常解剖结构的AI系统。通过改善图像解读和突出关键标志,该工具可能平滑学习曲线并保持操作一致性。此外,一个基于深度学习的EUS培训系统在站别分类方面达到90.0%的准确度,其血液血管分割和胰腺分割的Dice系数分别为0.77和0.813,达到了专家级水平。一项交叉研究显示,该模型将培训医师的站别识别准确度从67.2%提升至78.4%。通过包含胆管注释和站别识别的系统升级,它进一步将新手的时点准确度从60.8%提高到76.3%。
在病变诊断方面,引入了一种用于实时捕获和分割胰腺实性肿块的深度学习系统。在一项交叉试验中,使用该系统的培训医师表现指标有所改善,交集比(IoU)从0.80增加到0.87。此外,在胰体/尾部识别病变的时间从22.75秒减少到17.98秒,在胰头/钩突部从34.21秒减少到25.92秒。Cui等人开发了一个多模态AI系统,整合临床数据和EUS图像以区分胰腺癌与良性病变。在该研究中,AI辅助将新手内镜医师的诊断准确度从0.69提高到0.90。它还能通过提供额外的可解释性来增强专家内镜医师对AI预测的接受度。此外,还提出了一种深度学习放射组学(DLR)模型来识别胰腺导管腺癌(PDAC),实现了高准确度、高敏感性和高特异性。使用DLR系统的初级内镜医师达到或超过了高级内镜医师的表现,支持其作为教育辅助工具的潜在作用。
关于质量控制,开发了一种基于AI的自动EUS图像报告系统,在标准胆胰站别的准确性和完整性方面均优于人工评估。这项创新可作为培训标准化的潜在工具。
4.2.2 经内镜逆行性胰胆管造影(ERCP)
AI在经内镜逆行性胰胆管造影(ERCP)和胆道镜培训中的应用仍处于起步阶段,大部分努力主要集中于手术难度预测和病变检测。开发了一种基于深度学习的系统来评估ERCP过程中胆总管(CBD)结石取出的复杂性。该系统自动评估结石大小、CBD直径和技术难度,可为培训医师选择治疗策略和最小化不良事件提供可操作的计划。此外,一种用于在数字单操作子胆道镜中实时检测肿瘤性病变的AI模型在诊断准确性上优于非专家内镜医师。该模型可能提升培训医师的诊断信心,减少病变漏诊,并加速技能获取。然而,肝胆内镜领域的前瞻性临床试验数量仍然有限,为实施提供的证据虽有前景但尚不成熟。
4.3 胶囊内镜
AI正通过缩短阅片时间、改善病变检测以及创建包含多种病理的图集用于教育,来增强胶囊内镜(CE)的培训。Postgate等人评估了一种基于计算机的CE培训系统,对象为28名培训医师(14名医学生和14名消化科培训医师)。参与者观看了正常解剖、偶然发现和真实病理的视频片段,然后完成带有反馈的多项选择题。培训后,消化科培训医师和医学生的病变识别得分均显著提高。随后,开发了一种基于深度学习的筛查工具用于小肠胶囊内镜(SBCE),并在一项交叉研究中进行了测试。AI辅助显著减少了培训医师的阅片时间,但对糜烂或溃疡的病变检出率保持不变。值得注意的是,亚组分析显示,无论是否使用AI,培训医师均漏掉了专家检测到的大于5毫米的较大病变,这表明CE培训仍存在差距。随后,开发了另一种基于深度学习的系统,用于CE期间胃和小肠病变的检测。在AI的支持下,视频阅片时间缩短,更多病变被识别。特别是,初级内镜医师的诊断指标和准确度得到了提高。在一项关于自动SBCE诊断的验证研究中,使用AI的初级内镜医师在保持相似特异性的同时,实现了更高的总体准确度和敏感性,巩固了其在CE教育中的潜在作用。最后,开发了一种基于风格的生成对抗网络(StyleGAN2),从匿名患者数据生成高度逼真和多样化的小肠病理合成图集。这为CE培训和教育提供了可扩展的资源。
4.4 先进治疗内镜
手术阶段识别和关键特征(如血管、剥离平面和穿孔)的实时识别是先进治疗内镜培训的基本要素。Cao等人开发了一种用于内镜黏膜下剥离术(ESD)的基于深度学习的手术工作流程识别系统。该平台包含一个在线评分系统,用于评估手术熟练度和流畅度,为培训医师提供有针对性的专家技术反馈。Furube等人创建了一种用于食管ESD的AI阶段识别系统,准确率达90%,便于新手内镜医师快速回顾阶段。此外,Ward等人将这一概念扩展到经口内镜下肌切开术(POEM),阶段识别准确率达到87.6%,具有培训标准化的潜力。
为了增强这些复杂手术的安全性和精确性,Ebigbo等人设计了一种基于静态图像的AI模型来勾勒血管和组织结构。该算法实现了85%的平均血管检测率,假阳性率为每分钟0.75次,有可能降低术中并发症风险并加速技能获取。此外,同一团队通过19名不同经验水平的内镜医师进行视频回顾验证了该算法。血管检测率从56.4%提高到72.4%,而血管检测时间从6.7秒减少到5.2秒。另一方面,一种AI系统被训练用于穿孔检测和定位,其准确度和曲线下面积(AUC)分别达到0.881和0.869,可辅助经验不足的内镜医师进行术中决策。现有的证据水平支持该领域的进一步发展,但这些系统在临床试验环境中的进一步测试对于未来的应用将是强制性的。
5 讨论
5.1 未来——展望下一代AI内镜培训
GI内镜领域的AI发展方兴未艾,但仍有显著差距。未来的AI系统必须超越简单的病变识别等任务,发展为提供全面和个性化的培训解决方案。此外,AI也可能重塑对培训师的教育。
5.1.1 端到端应用——从术前到术后
- ?术前:AI可以通过高级模拟培训促进术前学习。例如,由AI驱动的增强现实(AR)和虚拟现实(VR)平台可以为培训医师创造沉浸式、高保真且无风险的练习环境。这些模拟可以复制真实世界中难以遇到的各种病理状况。此外,AI可通过分析患者病史、影像学结果和风险因素来协助术前规划,例如推荐个性化的镇静方案。这不仅增强了培训医师的心理准备,也提高了患者安全。此外,大型语言模型在医学教育中的应用已显示出良好效果,值得在认知技能培训中进一步探索。
- ?术中:随着CADe和CADx的快速发展,未来的AI可能支持关于内镜切除必要性和方式的实时决策——这是培训医师常面临的挑战。此外,AI还显示出在内镜导航方面提供术中指导和纠正反馈的潜力,从而加快精细运动控制的学习曲线。在治疗性内镜中,AI可以指导培训医师完成复杂干预,如止血或黏膜下剥离。这种实时辅助对急需指导的新手来说尤其宝贵。
- ?术后:内镜手术后,AI系统可通过分析手术时间、病变检出率、导航效率和照片文档质量等指标,对培训医师的表现进行详细评估。这可作为培训医师能力的客观评估工具,并有助于培训师提供建设性反馈。
5.1.2 个性化培训
在传统的学徒式培训模式下,培训医师的能力通常由培训时间或手术量决定,而非其实际表现。掌握式学习是一个新兴概念,它根据培训医师的技能量身定制培训,因为他们必须达到预定的熟练水平才能进入更高级的阶段。AI可以通过将主观的里程碑转化为数据驱动且可扩展的熟练度评估(例如,绩效评分、学习曲线或达到熟练所需时间)来辅助掌握式学习。对于高级培训医师和已结业的内镜医师,AI驱动的绩效分析可以识别需要改进的领域并推荐有针对性的培训模块。
5.1.3 培训师培训整合
教学素质和内镜素质是有效内镜培训师的基本品质,但针对培训师的正式培训往往缺乏。培训师可能意识不到自己的教学差距,并且并非所有培训师都同样擅长指导精细的内镜技术。在教学方面,基于AI的自然语言处理器可以监控培训师与学员的互动反馈,例如指令的清晰度和汇报的完整性。此外,AI还可以通过有针对性的技能提升和再培训练习来提高培训师的内镜素质。
5.2 AI整合的潜在危害
5.2.1 技能退化
将AI整合到内镜培训中存在技能退化的风险,即培训医师由于对技术的依赖而丧失必要的基本能力。主要担忧之一是诊断能力的下降。自动检测和表征病变的AI系统可能导致视觉识别技能发展不足。接受培训的内镜医师可能变得依赖AI来识别细微的黏膜变化,从而可能损害其独立解读内镜发现的能力。此外,研究表明AI会限制内镜医师的视觉追踪,这是对胃肠道进行彻底检查的关键技能和质量指标。虽然已经提出了增强主动视觉追踪的缓解策略,但更广泛的担忧依然存在:从传统教学向AI驱动培训的转变可能会减少通过探索进行学习的机会,因为培训医师遵循算法指导而非参与迭代的发现过程。这种转变可能削弱批判性思维,因为培训医师可能优先考虑AI的建议而非基础知识,例如对病理生理学和临床相关性的理解。长此以往,这可能削弱内镜医师将临床背景融入其判断和决策的能力。
5.2.2 过度依赖
另一个显著缺点是过度依赖AI,这可能导致意想不到的后果。自动化偏见是一个有充分记录的现象,即用户不加批判地接受AI生成的输出,即使这些输出是错误的。在内镜培训的背景下,这可能意味着培训医师未能挑战AI的错误,例如漏诊的病变或假阳性信号。此外,AI系统通常优先处理常见发现,并过滤掉它们从未训练过的“非典型”病变。这可能降低培训医师对罕见病理的认识和接触,限制他们应对现实世界中遇到的罕见复杂发现的准备程度。进一步的缺点是在系统故障时对紧急情况的准备不足,因为自动化可能会降低情境感知能力。习惯于AI辅助的培训医师在技术不可用时可能难以独立操作。这些观点强调了需要以平衡的方式将AI整合到培训课程中,以保持内镜医师在有或无AI支持的情况下有效运作的能力。
5.2.3 伦理问题
在内镜培训中采用AI也引发了伦理担忧,特别是在责任、知情同意和患者护理非人化方面。责任问题十分突出,因为AI在医疗保健中使用的法律框架仍不明确。如果因AI生成的建议出现错误,责任在于AI开发商、培训机构还是临床医生个人尚不清楚。这种法律上的模糊性使风险管理复杂化,并可能阻碍AI在培训项目中的采纳。此外,知情同意提出了另一个伦理困境,因为患者可能不完全了解AI在其手术过程中的作用。由于AI算法众所周知包含“黑匣子”,其决策过程很难向非专业人士解释。在这种情况下确保透明度和获得同意至关重要但具有挑战性。最后,患者护理的非人化是一个日益增长的担忧。大多数AI系统专注于质量指标,如息肉检出率,这可能掩盖以患者为中心的临床护理的重要性。培训医师可能过度依赖AI输出,而忽视患者护理中的人文方面,如共情和情境理解。这可能导致培养出一代技术上熟练但不太善于与患者建立融洽关系或解决其心理需求的临床医生。克服这些伦理挑战需要强有力的框架,优先考虑患者权利、数据安全以及在医学培训中保留人文价值。
5.2.4 实际限制
AI系统可能无法在所有培训中心公平使用,因为涉及大量投资和技术支持。此外,与现有基础设施的兼容性相关的挑战可能阻碍其整合。另外,教育者对AI工具的素养和熟悉度方面的差距可能限制其使用,即使这些工具可用。这些实际障碍可能无意中加剧差距并损害内镜培训的标准化,造成一种“两级”局面——设备齐全的中心内的培训医师可以受益于尖端AI工具,而其他地方的培训医师则缺乏这种机会。
5.3 前行之路
虽然AI在内镜培训中的应用是可预期的,但其整合必须谨慎管理,以解决伦理、心理和社会方面的担忧。由于AI的性能高度依赖于内镜医师的知识,传统教学的重要性不容削弱。一个整体的框架对于确保AI补充而非取代传统培训至关重要。
首先,AI应以结构化和分阶段的方式引入培训项目。这包括设定明确的AI使用目标,例如提高手术技能或标准化培训成果。机构还应制定AI采纳指南,确保其使用符合各自的教育目标和伦理标准。混合式培训方法,将AI与经验丰富临床医师的指导相结合,对于平衡技术和人为因素至关重要。虽然AI可以提供客观反馈和实时指导,但导师在临床判断、医患沟通和防范自动化偏见方面提供了宝贵的见解。这种人与AI的协同作用在外科技能指导中已显示出前景,并有望在内镜教育中产生类似效果。
虽然过度依赖AI系统可能导致技能退化,但AI可以量身定制,通过基于个人优势和劣势提供个性化反馈来增强培训医师的技能。未来的AI应纳入客观的学习成果以进行进度追踪。此外,在AI普及之前必须克服实际障碍。尽管在筛查性结肠镜检查中实施AI被证明具有成本效益,但其在内镜培训中的成本效益仍不确定,需要进一步研究。经验丰富的内镜医师应具备AI知识。最终,AI的普遍采用可能通过提供一致和客观的反馈来减少差异性并协调内镜培训——这一优势对于专业知识与指导机会有限的单位尤其相关。
为解决对算法偏见的担忧,所有AI系统在纳入培训课程之前,都应由专家在不同的临床环境中进行验证,以确保其准确性和普适性。另一方面,一个主要基于特定人口统计数据训练的AI系统在另一群体中可能表现不佳。因此,机构必须定期对AI系统进行审计,以持续评估其性能,并确保它们是公平可靠的。
应对伦理担忧需要多方面的努力。为解决责任模糊性问题,管理机构应建立共同责任框架,明确界定AI开发者、临床医生和医疗组织之间的责任。例如,开发者可对算法错误负责,而临床医生保留最终决策的责任,确保人类监督保持核心地位。强制要求在手术报告中记录AI的使用情况,例如何时以及如何遵循了AI指导,将增强可追溯性,并在发生不良后果时澄清责任。为应对“黑匣子”批评,开发者应优先考虑可解释AI(XAI)方法,使算法决策对临床医生和患者可理解。监管机构可通过强制披露训练数据构成和AI系统的性能限制来进一步支持透明度。最后,让患者参与明确的知情同意过程,概述其数据如何使用以及AI在其临床护理中的作用,尊重了患者的自主权并培养了对AI使用的信任。
6 结论
AI正在重塑GI内镜的格局。尽管AI可以解决我们在内镜教育中面临的许多挑战,但关于应如何将其纳入仍有许多未知之处。毫无疑问,其实施必须由一个优先考虑伦理考量、降低风险并保留医学人文元素的整体框架来支持。通过采用混合式、分步走的方法,确保AI模型质量,并专注于个性化发展,我们可以利用AI的力量提高内镜培训效率,并最终改善患者护理。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号