超越基准测试:社会技术系统中稳健人工智能骨分割的研究

《Expert Systems with Applications》:Beyond benchmarks: Towards robust artificial intelligence bone segmentation in socio-technical systems

【字体: 时间:2025年10月19日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本研究针对AI骨分割模型在真实临床环境中性能波动大的问题,通过前瞻性多中心评估,系统分析了20个先进下颌骨分割模型在1000例临床重采样CT/CBCT扫描上的表现。研究发现,成像参数(如体素大小、骨骼方向)和患者条件(如接骨术、病理)等社会技术因素可导致模型Dice评分产生高达25%的波动。研究结果为临床优化影像协议和开发者构建下一代鲁棒AI模型提供了循证依据,推动了AI分割工具在常规医疗中的整合。

  
在医疗数字化浪潮的推动下,基于分割的解剖和病理结构获取已成为临床实践和研究中不可或缺的步骤。从诊断、图像引导放疗到虚拟手术规划,其应用场景广泛。然而,手动分割仍然是一项劳动密集型且耗时的工作。为了应对这一挑战,过去几十年涌现了大量针对不同结构的自动分割方法,其中利用深度学习的人工智能模型最为引人注目。以下颌骨分割为例,AI模型已超越研究环境,开始作为经过认证的医疗软件转化为临床使用。但令人困惑的是,尽管算法取得了长足进步,AI分割模型仍然缺乏标准化的临床整合方案,其临床集成依然是一个重大挑战。
这背后的原因可能在于长达数十年的技术中心范式,即通过在不同挑战中比较和开发算法来突破性能极限,最终超越人类能力。虽然这种技术中心视角为我们带来了强大的模型和不断刷新的排行榜,但它往往忽略了应用AI模型的复杂社会技术系统。对临床医生而言,最近的研究表明,他们是否采纳AI生成的结果取决于其透明度、鲁棒性和现实适用性,而不仅仅是基准指标。此外,在真实世界情境中,医学影像数据通常是根据特定的临床需求前瞻性采集的,包含了广泛的成像协议以及不同的患者因素。因此,从技术中心的关注点转向社会技术视角,明确考虑临床背景,如多样的成像协议、患者人口统计学和实际工作流整合,将极大地促进AI分割模型有效转化为临床常规和研究设置。
为此,我们需要理解社会技术因素如何影响AI分割模型的整体性能。先前的研究发现,成像模态、扫描设备和重建协议等因素可能会影响分割结果。虽然一些研究已开始探索这些因素,但它们要么关注有限的因素,要么仅使用单一AI模型,对这些相互作用的全面理解仍然 largely 未被揭示。
为了解决这个问题,本研究没有简单比较模型性能,而是评估了社会技术因素对多个AI模型整体性能的影响。研究选择形态复杂且具有代表性的下颌骨作为分割目标,并创建了一个平衡患者和成像特征的基准数据集。值得注意的是,本研究招募了迄今为止评估数量最多的下颌骨分割AI模型,包括由多个独立研究团体和公司开发的系统。通过对原始数据进行系统性重采样,研究人员能够像控制医学图像采集过程那样,实验性地控制不同因素的影响。随后评估分割结果,以探索成像、患者和解剖区域因素对模型性能的普遍影响。
本研究为多中心研究,评估了来自全球20个不同中心和公司的先进AI模型。研究方案已在德国临床试验注册中心前瞻性注册。所有技术细节可在研究方案中找到。该研究获得了亚琛大学医院伦理委员会的批准。由于使用匿名回顾性患者数据,无需知情同意。
为了构建一个在患者相关特征方面平衡的基准数据集,研究人员采用了目标分层选择策略。从一个中心筛选了100名患者的50例计算机断层扫描和50例锥形束CT扫描。根据伪影、骨病理、接骨术和牙列等特征层选择病例,以满足预设配额。所有选中的扫描均通过裁剪掉眶下缘以上区域进行去标识化。研究人员系统地对原始100个选定病例进行重采样,生成了额外的900个体积,总计1000个体积。这种方法使研究人员能够完全控制体素大小、层厚、锐度、噪声和下颌骨的旋转。
为了获得平衡的数据集,在重采样前对原始CT/CBCT体积的特征进行了分析。这些特征从五个方面进行量化和测量。基于这些测量,选择了五种重采样方法。通过调整这些因素,研究人员成功使重采样数据集上的特征分布近似于公共数据集的参考分布或正态分布。从生成的3,727,360种成像特征重采样组合中,随机选择了900种,并相应地生成了重采样体积。这些下采样体积与最初的100次扫描一起,形成了一个包含1000个体积的平衡最终数据集。
原始扫描的下颌骨分割由两名经验丰富的外科医生独立在不同软件中完成。分割质量由第三名外科医生检查和批准。分割的原则是保留下颌骨的解剖骨结构。研究人员应用相同的重采样协议对原始金标准进行体素缩放和旋转,以获得重采样900个病例的相应分割结果。
纳入本研究的分割模型需满足特定标准。基于系统性综述的文献研究,研究人员列出了一组已发表模型,并进一步在在线数据库中搜索了系统性综述之后发表的其他模型。他们联系了35位通讯作者,其中十位同意参与研究。此外,联系了十家提供下颌骨分割服务的公司,其中八家加入。研究人员还搜索了公共仓库以获取可用模型,并应用了两个训练好的模型。通过数据传输协议,最终数据集与合作者共享,分割结果返回亚琛工业大学进行评估。
为了进一步评估下颌骨不同解剖区域的分割质量,研究人员描绘了九个感兴趣区域。所有上述感兴趣区域均基于在体积上手动标记的参考点创建。分割结果与相应体积对齐,并与手动金标准进行比较。选择了四个指标进行评估。如果AI模型无法分割牙齿,则不进行牙列区域的评估。所有评估均匿名进行。
统计分析使用R编程语言进行。对于描述性统计,应用曼-Whitney U检验评估统计学显著性,随后进行Bootstrap程序以获得中位数差异的95%置信区间。将上述列出的因素设为线性混合效应模型中的固定效应,而AI模型的差异被视为随机效应。检查了所选固定效应的共线性,发现锐度和噪声高度相关,因此将噪声从因素列表中移除。研究人员缩放因素,测试了多种设置组合,并为每个感兴趣区域和整个下颌骨的每个指标选择了一个最优线性混合效应模型。
总共20个来自世界不同国家的商业和研究用下颌骨分割AI模型被纳入本研究。所有模型都是在过去5年内开发的。评估基于两名研究者的金标准进行,其组间Dice相似系数相关性为95.7%。在需要分割的1000个体积中,平均有942个体积被成功分割,共评估了19,218个分割结果。模型按分割结果中Dice相似系数大于90%的体积数量降序排列。只有一个模型无法分割任何锥形束CT体积。
结果显示,所有模型在基准数据集上的平均Dice相似系数和归一化表面Dice均为81.7%,而95%豪斯多夫距离和平均平均表面距离的平均值分别为14.89毫米和2.73毫米。模型A在几乎所有指标上表现出最佳性能。仅使用锥形束CT数据训练的模型显示出比仅使用CT数据训练的模型更好的结果。商业模型的表现优于研究模型。关于训练数据量,在中等数量扫描上训练的模型在所有组中表现出最佳分割性能。与整个基准数据集及其重采样子集的结果相比,所有指标在原始体积上均显示出整体改善。20个模型中有16个在原始体积上比重采样体积表现更好。
成像因素方面,较高的锐度水平通常导致更好的分割结果。然而,Dice相似系数的改善在超过一定锐度水平后达到平台期。XY平面中较大的体素大小显著降低了分割性能。增加层厚也产生负面影响。下颌骨在所有三个平面上的旋转对分割性能产生负面影响。在单变量描述性统计中,AI模型在锥形束CT数据上的表现优于CT数据。对于使用不同的锥形束CT设备,未发现显著差异。
患者相关因素方面,男性患者的分割结果略好于女性患者。老年患者显示出Dice相似系数下降,但该效应不显著。下颌骨区域的平均亨氏单位值用于评估骨密度,发现较低的骨密度会降低分割性能。下颌牙列中牙齿数量对分割性能产生积极影响。另一方面,骨病理的存在降低了Dice相似系数。接骨材料具有最显著的负面效应。伪影也对分割产生负面影响,但对Dice相似系数无显著效应。
解剖区域方面,AI模型的分割性能在不同区域存在显著差异。髁突表现出较低的准确性。牙列区域的归一化表面Dice值也最低。下颌骨体在距离指标上表现出最高的分割误差。
讨论部分指出,尽管AI模型已证明其性能,但关于当前AI模型在临床常规和研究中的整合与局限性仍存在许多悬而未决的问题。本研究基于对20个当前先进AI模型的实验研究,以及成像特征、患者特征和解剖区域对分割结果的分析,获得了新的见解,并为优化的社会技术设置提供了建议。研究强调了监管政策对商业模型开发和部署过程的积极影响。同时,部署后性能监控是提高AI模型在临床实践中安全性和有效性的关键步骤。
关于成像因素和模态,提升锐度、减小体素大小以及确保标准化患者体位均可改善AI分割效果。研究结果与传统分割算法的发现一致。关于骨旋转,研究结果表明轴向和矢状面的骨骼旋转会对分割结果产生负面影响。在成像模态方面,大多数使用单模态数据训练的模型也能够分割另一种模态的扫描。然而,线性混合效应模型在考虑多种因素后,显示AI模型分割CT数据的效果更好。
患者相关因素和感兴趣区域方面,牙齿的存在改善了分割结果。然而,骨病理和接骨材料显著降低了准确性。下颌骨分割的准确性在不同解剖区域存在差异,髁突准确性较低,下颌骨体的分割误差程度较高。
临床适用性方面,理想情况下,AI分割模型不应对社会技术系统中高度可变的因素敏感。然而,由于架构和训练数据的限制,当前模型尚未达到此目标。根据研究结果,通过优化成像协议可以提高模型的分割性能。
基于研究结果,向临床医生和AI开发者提出了具体建议。对临床团队而言,意味着尽可能选择高分辨率CT协议,确保标准化患者体位,并在涉及骨病理或接骨术的病例中重新检查AI输出。对AI开发者而言,下一代AI分割模型的需求从临床失败中总结出来,模型必须对常见的临床变异保持鲁棒性,应进一步提高易出错解剖区域的准确性,并提供直观的不确定性反馈以指导临床审查。
研究结论表明,AI下颌骨分割的性能受到社会技术因素的动态影响。临床转化的成功依赖于两大支柱:临床医生应调整其工作流程以适应AI当前的局限性,而开发者必须解决解决持续临床挑战的即将到来的需求。只有通过这种双重承诺,AI才能从一个静态算法和技术中心关注点,转变为社会技术系统中值得信赖的临床盟友。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号