利用机器学习和机器人流程自动化将非结构化的结肠镜检查结果转化为可操作的数据:概念验证研究

《JMIR Medical Informatics》:Leveraging Machine Learning and Robotic Process Automation to Identify and Convert Unstructured Colonoscopy Results Into Actionable Data: Proof-of-Concept Study

【字体: 时间:2025年11月22日 来源:JMIR Medical Informatics 3.8

编辑推荐:

  本研究开发了一种基于机器学习和机器人流程自动化的端到端工作流,用于从外部结肠镜检查报告中提取并更新结直肠癌筛查随访日期,显著减少临床人员负担并提高数据准确性。验证显示该流程准确率为80.7%,成功处理16,563份报告,并确定9个业务例外以确保临床安全。

  随着患者数量的持续增长以及对医疗质量的重视,医疗系统面临着如何更高效地确保从外部结肠镜检查报告中准确记录结直肠癌(CRC)筛查间隔的挑战。为了提升患者随访的及时性和准确性,研究团队设计并实施了一项整合机器学习(ML)和机器人流程自动化(RPA)的端到端工作流程,以实现从非结构化数据中提取并更新电子健康记录(EHR)中的随访日期。这项工作不仅有助于改善患者筛查随访的管理,也为未来在医疗系统中推广自动化技术提供了重要的参考。

### 背景与目标

结直肠癌是美国第二常见的癌症死亡原因,且其发病率在年轻人群中呈上升趋势。有效的CRC筛查是预防性医疗的重要组成部分,能够显著降低该疾病的发病率和死亡率。然而,当前医疗系统在随访管理方面仍面临诸多挑战。传统的电子健康记录系统虽然提供了提醒功能,但往往无法满足临床医生的具体需求。此外,许多结肠镜检查报告和病理结果以非结构化文本形式存储,使得关键信息难以被系统自动识别和处理,从而增加了医生的文档负担。因此,本研究的目标是开发一种自动化流程,将外部结肠镜检查报告中的非结构化信息转化为结构化数据,以便更准确地更新EHR中的随访日期。

为了实现这一目标,研究团队采用了一种集成的解决方案,结合ML和RPA技术,以确保数据从非结构化格式中被正确提取并录入到EHR系统中。该流程不仅提高了随访日期的准确性,还减少了人工干预的需求,从而提升了整体工作效率。研究假设,这种工作流程可以推广到其他临床信息的处理中,进一步改善医疗系统的数据整合能力和质量报告。

### 方法与技术整合

本研究采用了一个六阶段的方法论,以确保流程的可行性与有效性。第一阶段是识别当前随访流程中的信息缺口,即如何从外部结肠镜检查报告中准确提取随访日期。第二阶段则是明确流程的目标,即自动化处理这些报告并更新EHR中的相关字段。第三阶段涉及技术工具的选择,团队选择了适合各个流程环节的现有系统,包括ML模型、RPA工具、文档管理平台等。第四阶段是构建流程架构,明确各技术组件如何协同工作以完成数据提取、处理和更新。第五阶段是流程验证,通过人工审核样本数据,确保自动化系统的准确性。最后是系统范围内的实施,确保该流程能够稳定运行并被广泛使用。

在技术实现方面,团队使用了内部开发的ML模型来识别结肠镜检查报告中的随访日期。该模型基于大量的训练数据,包括7021份独特的文档,其中大多数是结肠镜检查报告和病理报告。通过机器学习算法,系统能够识别关键信息,如患者ID、报告日期和随访建议,并将其转化为结构化数据。如果提取的数据符合预设的准确性阈值,系统将标记为“RPA就绪”,并进入自动化更新流程。否则,报告将被标记为“RPA未就绪”,并进入人工审核队列。

RPA工具则负责将提取的随访日期录入到EHR系统中,确保与现有随访计划的匹配,并处理可能的例外情况。例如,如果患者的随访日期已被医生手动更新,则系统不会覆盖这些信息。此外,如果报告中提到的随访日期超过当前设定的范围,或者患者的年龄不符合CRC筛查的条件,系统将不会自动更新。这些业务例外情况被设计为流程中的安全机制,以确保自动化不会影响已有的临床决策。

### 流程验证与结果

在流程验证阶段,研究团队对690份扫描的结肠镜检查报告进行了人工审核,以评估自动化系统的准确性。结果显示,整个流程的总体准确率为80.7%(557/690),95%置信区间为77.8%-83.7%。然而,流程在识别随访日期方面的误报率仍较高,为32.9%(130/395),即部分报告中存在随访日期,但未能被系统正确识别。尽管如此,研究团队认为这一误报率在可接受范围内,因为提高模型的敏感性可能会导致提取出错误的日期,而错误识别的随访日期可能比遗漏的日期更危险。

在系统范围内实施后,从2023年10月4日到2024年12月31日,系统处理了16,563份外部结肠镜检查报告。其中,35.3%(5841/16,563)的报告被标记为“RPA就绪”,即系统认为这些报告中的随访日期符合预设的准确性标准。在这些“RPA就绪”的报告中,77.2%(4512/5841)的患者记录成功更新了随访日期。其余的报告则由于各种业务例外情况未被更新,包括患者已有手动设定的随访日期、报告中的随访日期超出标准筛查年龄范围、或者存在文档信息不一致的情况。

这一流程的成功实施表明,自动化技术在医疗数据处理方面具有显著潜力。通过将非结构化文本转化为结构化数据,系统不仅提高了随访日期的准确性,还减少了临床医生的文档负担。此外,该流程还能够支持后续的患者随访工作,确保患者在推荐的时间范围内接受筛查,从而改善预防性医疗服务的管理。

### 讨论与应用前景

本研究的结果表明,利用ML和RPA技术构建的自动化流程在处理结肠镜检查报告中的随访日期方面是可行的。该流程能够在不依赖医生手动输入的情况下,准确识别并更新随访日期,从而提高数据的一致性和可用性。更重要的是,这种整合方案能够减少人工干预,提高整体工作效率,同时确保数据的准确性和完整性。

在讨论部分,研究团队指出,尽管现有的一些文献已经探讨了自动化技术在医疗数据处理中的应用,但大多数研究仍停留在理论层面,缺乏完整的端到端解决方案。相比之下,本研究成功地将ML和RPA技术结合,构建了一个可实际运行的自动化流程,能够处理实际临床环境中的复杂情况。此外,研究团队还提到,随着生成式AI技术的发展,未来可能可以通过更先进的模型进一步提升自动化流程的准确性和适用范围。

值得注意的是,本研究的自动化流程不仅适用于结肠镜检查报告,还可以推广到其他类型的临床信息处理任务中。例如,可以通过类似的方法提取胆固醇或HbA1c等实验室检测结果,并将其录入到EHR系统中,从而提升整体数据质量和工作效率。这种标准化的数据摄入方式有助于改善医疗系统的数据整合能力,为质量报告和患者随访管理提供更全面的支持。

然而,研究团队也指出了该流程的一些局限性。首先,由于流程依赖于多个不同的技术组件,因此在系统更新或用户界面变化时,可能会出现技术问题,需要持续的监控和维护。其次,本研究使用的ML模型仅在单一健康系统中进行了验证,因此其适用性可能受到其他系统结构或数据格式的影响。此外,尽管自动化流程在提高随访日期准确性方面表现出色,但其更新率仍受到临床因素和运营决策的限制。例如,如果患者的随访日期已被医生手动设定,系统将不会覆盖这些信息,这可能导致部分数据未被更新。

### 结论与展望

综上所述,本研究展示了通过整合ML和RPA技术,实现从外部结肠镜检查报告中提取和更新随访日期的可行性。该流程不仅提高了数据的准确性,还减少了人工干预,提升了医疗系统的效率。更重要的是,这种自动化方法为未来的医疗数据处理提供了重要的参考,表明在医疗系统中,通过技术手段处理非结构化数据可以显著改善数据整合和质量报告。

未来的研究可以进一步探索如何将类似的自动化流程应用于其他临床信息的处理任务,以提升整体医疗数据的质量和可用性。此外,随着AI技术的不断发展,尤其是生成式AI和大语言模型的应用,这些技术可能能够进一步优化自动化流程,提高其准确性和适用范围。然而,在推广这些技术之前,仍需进行充分的验证和测试,以确保其在不同医疗系统中的有效性和安全性。

总之,本研究的成功实施为医疗系统提供了一种新的解决方案,以应对非结构化数据带来的挑战。通过自动化技术的引入,医疗系统能够更高效地处理大量临床数据,确保患者在推荐的时间范围内接受筛查,从而改善预防性医疗服务的管理。未来,随着技术的不断进步和医疗系统的进一步整合,这种自动化流程有望在更多领域得到应用,为提升医疗质量和患者安全提供更强有力的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号