机械取栓强化学习算法基准测试：开启自主手术新时代

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年04月30日 来源：International Journal of Computer Assisted Radiology and Surgery 2.3

编辑推荐：

　　机械取栓（MT）是急性缺血性中风的金标准治疗方法，但存在诸多挑战。研究人员利用 stEVE 平台评估了 DDPG、TD3、SAC 和 PPO 算法。结果显示不同算法在不同条件下各有优势，该研究为推进自主血管内导航奠定基础。

　　在医疗领域，中风一直是全球范围内导致死亡和长期残疾的主要原因之一，每年影响着超过 1220 万人。机械取栓（MT）作为治疗急性缺血性中风（由大血管闭塞引起）的金标准方法，通过在荧光透视成像的辅助下，医生操控导丝和导管从股动脉出发，历经复杂血管路径到达脑部目标位置，利用导管末端装置抓取并移除血栓，恢复脑部血液流动，从而降低中风导致的残疾严重程度。

然而，MT 在实际应用中面临着一系列棘手的问题。一方面，手术的成功高度依赖医生的经验，经验丰富的医生往往能缩短手术时间并取得更好的再灌注效果；但另一方面，从症状发作到接受治疗的时间延迟却与更高的残疾水平相关。并且，在符合 MT 治疗条件的患者中，仅有 3.1% 的患者能够真正接受治疗，这主要是由于医疗资源有限以及专业技术人员短缺。此外，手术过程中医生还会遭受辐射暴露，而现有的机器人平台虽能在一定程度上解决部分问题，但也存在操作技能要求特殊、缺乏触觉反馈等不足，给临床使用和培训带来困难。

为了解决这些问题，来自伦敦国王学院（King's College London）等机构的研究人员开展了关于 MT 中强化学习（RL）算法的研究。他们旨在评估深度确定性策略梯度（DDPG）、双延迟深度确定性策略梯度（TD3）、软演员 - 评论家（SAC）和近端策略优化（PPO）这几种算法在 MT 中的性能表现。该研究成果发表在《International Journal of Computer Assisted Radiology and Surgery》上，为推进自主血管内导航技术的发展提供了重要依据。

研究人员主要采用了以下关键技术方法：利用开源的 stEVE 平台构建模拟血管内干预环境，包括 ArchVariety 和 DualDeviceNav 环境，分别用于模拟简单和复杂的导航任务；选用来自 SB3 库的 DDPG、TD3、SAC 和 PPO 算法进行实验；设置特定的观察集、动作集以及奖励函数，同时调整神经网络大小和学习率等超参数；在训练过程中，通过大量的探索步骤进行训练，并定期对算法进行评估，记录成功率、手术时间和路径比等关键指标。

研究结果

ArchVariety 环境下默认超参数实验：在该实验中，研究人员评估了各算法在默认超参数设置下的性能。结果显示，DDPG 和 TD3 表现较为突出，DDPG 的最高成功率达到 80%，平均手术时间为 6.87 秒；TD3 的最高成功率为 79% 。而 SAC 的最高成功率最低，仅为 66%；PPO 虽然手术时间最短，为 5.5 秒，但成功率为 70%12。
ArchVariety 环境下调整超参数实验：进一步研究超参数调整对算法性能的影响时发现，较大的网络通常对离策略算法（如 DDPG、TD3 和 SAC）更有利，其中 SAC 的成功率提升最为显著，从 66% 提高到 70%。相反，PPO 在较小网络配置下表现更优，其成功率从 70% 提升到 84%。此外，调整学习率的实验表明，默认学习率更适合离策略算法，而较低的学习率能提升 PPO 的性能，但也会使其表现出一定的不稳定性34。
DualDeviceNav 环境下调整超参数实验：在更复杂的 DualDeviceNav 环境中，研究人员使用在 ArchVariety 环境中调整后的超参数对算法进行训练和评估。结果显示，TD3 取得了最高的成功率，为 68%，平均手术时间为 214.05 秒；DDPG 的成功率仅为 24%，但手术时间最短，为 88.62 秒；PPO 的手术时间最长，达到 574.33 秒，成功率为 41%5。

研究结论与讨论

综合上述研究结果，研究人员得出以下结论：不同的 RL 算法在 MT 相关任务中的表现存在差异，并且超参数调整对算法性能有着至关重要的影响。在 ArchVariety 环境中，PPO 在调整超参数后能够达到最高的成功率（84%）和最短的手术时间（5.08 秒）；在 DualDeviceNav 环境中，TD3 则展现出最佳的性能，成功率为 68% 。

这项研究的重要意义在于，它为自主血管内手术的发展建立了一个重要的基准。通过对不同 RL 算法的评估和比较，为后续研究筛选最有效的算法提供了参考，有助于推动自主血管内导航技术的进一步发展，有望解决 MT 目前面临的诸多问题，提高手术的效率和可及性，为更多中风患者带来更好的治疗效果。同时，研究也指出了当前研究存在的局限性，如缺乏体外实验验证、研究环境的局限性以及超参数搜索不够全面等，为未来的研究指明了方向。未来研究可以进一步拓展实验范围，纳入更多的解剖结构和模拟平台，开展更深入的超参数调整研究，并探索不同的奖励函数和学习策略，以不断优化自主血管内手术技术。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号