编辑推荐:
机械取栓(MT)是急性缺血性中风的金标准治疗方法,但存在诸多挑战。研究人员利用 stEVE 平台评估了 DDPG、TD3、SAC 和 PPO 算法。结果显示不同算法在不同条件下各有优势,该研究为推进自主血管内导航奠定基础。
在医疗领域,中风一直是全球范围内导致死亡和长期残疾的主要原因之一,每年影响着超过 1220 万人。机械取栓(MT)作为治疗急性缺血性中风(由大血管闭塞引起)的金标准方法,通过在荧光透视成像的辅助下,医生操控导丝和导管从股动脉出发,历经复杂血管路径到达脑部目标位置,利用导管末端装置抓取并移除血栓,恢复脑部血液流动,从而降低中风导致的残疾严重程度。
然而,MT 在实际应用中面临着一系列棘手的问题。一方面,手术的成功高度依赖医生的经验,经验丰富的医生往往能缩短手术时间并取得更好的再灌注效果;但另一方面,从症状发作到接受治疗的时间延迟却与更高的残疾水平相关。并且,在符合 MT 治疗条件的患者中,仅有 3.1% 的患者能够真正接受治疗,这主要是由于医疗资源有限以及专业技术人员短缺。此外,手术过程中医生还会遭受辐射暴露,而现有的机器人平台虽能在一定程度上解决部分问题,但也存在操作技能要求特殊、缺乏触觉反馈等不足,给临床使用和培训带来困难 。
为了解决这些问题,来自伦敦国王学院(King's College London)等机构的研究人员开展了关于 MT 中强化学习(RL)算法的研究。他们旨在评估深度确定性策略梯度(DDPG)、双延迟深度确定性策略梯度(TD3)、软演员 - 评论家(SAC)和近端策略优化(PPO)这几种算法在 MT 中的性能表现。该研究成果发表在《International Journal of Computer Assisted Radiology and Surgery》上,为推进自主血管内导航技术的发展提供了重要依据。
研究人员主要采用了以下关键技术方法:利用开源的 stEVE 平台构建模拟血管内干预环境,包括 ArchVariety 和 DualDeviceNav 环境,分别用于模拟简单和复杂的导航任务;选用来自 SB3 库的 DDPG、TD3、SAC 和 PPO 算法进行实验;设置特定的观察集、动作集以及奖励函数,同时调整神经网络大小和学习率等超参数;在训练过程中,通过大量的探索步骤进行训练,并定期对算法进行评估,记录成功率、手术时间和路径比等关键指标 。
研究结果
- ArchVariety 环境下默认超参数实验:在该实验中,研究人员评估了各算法在默认超参数设置下的性能。结果显示,DDPG 和 TD3 表现较为突出,DDPG 的最高成功率达到 80%,平均手术时间为 6.87 秒;TD3 的最高成功率为 79% 。而 SAC 的最高成功率最低,仅为 66%;PPO 虽然手术时间最短,为 5.5 秒,但成功率为 70%12。
- ArchVariety 环境下调整超参数实验:进一步研究超参数调整对算法性能的影响时发现,较大的网络通常对离策略算法(如 DDPG、TD3 和 SAC)更有利,其中 SAC 的成功率提升最为显著,从 66% 提高到 70%。相反,PPO 在较小网络配置下表现更优,其成功率从 70% 提升到 84%。此外,调整学习率的实验表明,默认学习率更适合离策略算法,而较低的学习率能提升 PPO 的性能,但也会使其表现出一定的不稳定性34。
- DualDeviceNav 环境下调整超参数实验:在更复杂的 DualDeviceNav 环境中,研究人员使用在 ArchVariety 环境中调整后的超参数对算法进行训练和评估。结果显示,TD3 取得了最高的成功率,为 68%,平均手术时间为 214.05 秒;DDPG 的成功率仅为 24%,但手术时间最短,为 88.62 秒;PPO 的手术时间最长,达到 574.33 秒,成功率为 41%5。
研究结论与讨论
综合上述研究结果,研究人员得出以下结论:不同的 RL 算法在 MT 相关任务中的表现存在差异,并且超参数调整对算法性能有着至关重要的影响。在 ArchVariety 环境中,PPO 在调整超参数后能够达到最高的成功率(84%)和最短的手术时间(5.08 秒);在 DualDeviceNav 环境中,TD3 则展现出最佳的性能,成功率为 68% 。
这项研究的重要意义在于,它为自主血管内手术的发展建立了一个重要的基准。通过对不同 RL 算法的评估和比较,为后续研究筛选最有效的算法提供了参考,有助于推动自主血管内导航技术的进一步发展,有望解决 MT 目前面临的诸多问题,提高手术的效率和可及性,为更多中风患者带来更好的治疗效果。同时,研究也指出了当前研究存在的局限性,如缺乏体外实验验证、研究环境的局限性以及超参数搜索不够全面等,为未来的研究指明了方向 。未来研究可以进一步拓展实验范围,纳入更多的解剖结构和模拟平台,开展更深入的超参数调整研究,并探索不同的奖励函数和学习策略,以不断优化自主血管内手术技术。