
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于CARE生命周期与AI驱动的医疗软件技术成熟度评估工具开发及应用
【字体: 大 中 小 】 时间:2025年07月09日 来源:BMC Medical Informatics and Decision Making 3.3
编辑推荐:
本研究针对医疗AI软件开发中面临的监管、伦理和操作复杂性,创新性地提出CARE生命周期框架及AI驱动的CARE Agent评估工具。通过多学科协作和检索增强生成(RAG)技术,实现了技术就绪水平(TRL)评估的自动化,在糖尿病预测模型(DOP)案例中验证了其可减少32.8%人工审核工作量,为临床AI系统开发提供了标准化路径。
医疗人工智能(AI)开发正面临前所未有的挑战。传统医疗信息系统(HIS)的规则驱动模式与AI系统的数据驱动特性存在本质差异,后者具备从海量数据中自主学习的"黑箱"特性,这给临床部署带来了技术、伦理和监管的三重困境。更棘手的是,现有评估框架如MLTRL(机器学习技术就绪水平)缺乏医疗场景特异性,而HEAAL(健康公平AI生命周期)等医疗专用框架又缺乏可操作性,导致AI临床转化效率低下。
美国梅奥诊所医学中心(Mayo Clinic)的Steven N. Hart团队在《BMC Medical Informatics and Decision Making》发表的研究,提出了革命性的解决方案。研究人员开发了临床AI就绪评估器(CARE)生命周期框架,包含9个技术就绪水平(TRL)评估阶段,并通过检索增强生成(RAG)技术构建了自动化评估工具CARE Agent。该研究创新性地将航空航天领域的TRL概念与医疗AI特性相结合,在糖尿病结局预测器(DOP)的模拟测试中,系统仅需2小时即可完成378项评估,识别出32.8%未达标问题,与专家复核的一致性达80.6%。
研究采用多学科协作方法,关键技术创新包括:(1)通过22个医疗相关利益方(临床信息学专家、数据工程师、伦理学家等)访谈确定评估维度;(2)构建包含378个问题的CARE检查表,问题密度在TRL4-6阶段最高(TRL5需120项);(3)基于Llama 3大语言模型开发RAG系统,使用NVIDIA RTX 6000 GPU加速处理;(4)通过人工裁决验证DOP案例的评估准确性。
研究结果部分显示:
CARE生命周期:框架将AI开发分为9个TRL阶段,早期阶段(TRL0-2)侧重概念验证,中期(TRL3-5)强调临床适配性,后期(TRL6-9)关注系统集成与持续监测。关键创新是引入"轨道"概念——将评估项分为数据治理、临床效用等平行维度,通过圆形组件(渐进评估)和五边形组件(临床/财务审查关卡)实现非线性评估。
CARE检查表:问题分布呈现"中间密、两端疏"特征,TRL0无评估项,TRL2仅1项,而TRL5需完成120项评估,反映资源投入的阶段性差异。检查表特别强化FDA等医疗监管要求,如TRL8阶段包含详细的停机恢复SLA(服务等级协议)评估。
CARE Agent性能:在DOP案例测试中,系统主要失误源于:(1)19.4%因RAG检索遗漏(如未捕获"99.9%系统可用性"声明);(2)80.6%因LLM误判(将已回答问题标记为未完成);(3)复合问题解析错误(占1.3%)。可视化工具如"赛道图"(

该研究的突破性在于首次实现了医疗AI开发的"自动化合规审计"。相比传统框架,CARE系统将多学科协作时间从数周压缩至2小时,尤其擅长识别跨领域盲区——例如在DOP案例中,数据工程师负责的评估项仅6.25%达标,暴露出临床团队常忽视的数据治理问题。尽管仍需"人在环路"监督以防止LLM幻觉(hallucination),但该方法已显著降低医疗AI的转化门槛。未来通过优化RAG分块策略和添加验证层,有望进一步缩小19.4%的专家-系统认知差距,为FDA等监管机构提供可扩展的AI评估范式。
生物通微信公众号
知名企业招聘