高质量真实世界数据驱动负责任人工智能:S-RACE平台赋能可扩展多专科临床研究

《npj Digital Medicine》:Powering responsible artificial intelligence with high-quality real-world data: the S-RACE platform for scalable, multi-specialty clinical research

【字体: 时间:2026年01月05日 来源:npj Digital Medicine 15.1

编辑推荐:

  【编辑推荐】为破解非结构化医疗数据阻碍AI临床转化的难题,研究团队开发了基于云端的S-RACE平台。该平台通过集成自然语言处理(NLP)和FHIR标准,将原始医院数据转化为高质量真实世界证据(RWE),并内置数据科学实验室支持符合ISO 42001和欧盟AI法案的负责任AI开发。目前平台已整合31,276名患者数据,支撑19个临床研究项目,在肾癌和主动脉瓣狭窄等疾病中验证了其自动处理数据与人工标注数据相当的模型性能,为加速可信赖AI的临床转化提供了标准化基础设施。

  
在医疗人工智能(AI)迅猛发展的今天,一个核心矛盾日益凸显:尖端算法需要高质量真实世界数据(RWD)作为燃料,但医院信息系统产生的海量数据往往存在非结构化、稀疏和缺乏标准化等固有缺陷。这种"垃圾进、垃圾出"的困境使得许多AI模型在临床验证中表现不佳,甚至产生不符合实际数据的"幻觉",严重阻碍了AI辅助临床决策支持系统(CDSS)向个性化医疗的转化。更严峻的是,医疗AI系统属于欧盟AI法案定义的高风险应用,必须满足ISO 42001等国际标准对数据质量、风险管理和人类监督的严格要求。传统的人工数据整理方法虽能产生"金标准"数据集,但面对现代AI开发所需的海量数据,这种模式既不可扩展也不可持续。
正是在这一背景下,发表于《npj Digital Medicine》的研究论文《Powering responsible artificial intelligence with high-quality real-world data: the S-RACE platform for scalable, multi-specialty clinical research》提出了一个创新性解决方案。由意大利圣拉斐尔大学Alberto Traverso、Carlo Tacchetti和Antonio Esposito等学者领衔的研究团队,与微软和Porini公司合作开发了S-RACE平台——一个安全、云端的临床数据科学平台,专门设计用于系统化地将原始医院数据转化为高质量、研究级的真实世界证据(RWE)。
为开展这项研究,团队主要依托几个关键技术方法:采用混合云架构,在数据离开医院前进行本地伪匿名化处理确保GDPR合规;利用微软认知健康服务的自然语言处理(NLP)技术从非结构化文本中提取医学概念,并基于统一医学语言系统(UMLS)将数据标准化为FHIR格式;在微软Azure ML Studio中构建数据科学实验室,集成MLflow确保可追溯性,并应用SHAP等可解释AI(XAI)技术增强模型透明度;平台整合了来自电子健康记录(EHR)、病理、实验室、影像归档和通信系统(PACS)及电子病例报告表(eCRF)等多模态数据,覆盖31,276名患者,支持19个临床研究项目。
平台架构与治理模式
S-RACE平台建立在三大架构支柱上,形成从原始临床数据到可信AI基础的端到端管道。核心是"隐私保护设计"理念,数据管道始于本地伪匿名化引擎,在数据传输到云端前将直接标识符替换为不可逆加密哈希值,映射密钥仅存储在医院本地安全基础设施中。通用数据平台采用混合云方法,使用AI驱动服务(包括NLP和医学本体)解析临床报告中的非结构化文本,然后将这些信息转换并结构化为FHIR标准。临床医生AI中心提供交互环境,供临床医生和研究人员探索整理后的数据,使用数据可视化工具进行初步分析。数据科学实验室在Microsoft Azure ML Studio内提供全面环境,用于构建和验证机器学习模型,集成支持严格可追溯性和可重复性的工具以及模型透明度。
数据质量评估流程
平台采用混合数据质量模型,结合专家驱动评估与自动化预处理工作流。项目开始前,临床主要研究者(PI)提交的项目提案使用数据质量检查表进行严格评估,该检查表包含五个类别的39个问题:摘要、收集、预处理、元数据和数据。PI和S-RACE联系人共同完成问卷,为每个问题提供文本回答和0(最差)到3(最好)的评分。项目经指导委员会批准且数据转移到平台后,手动审查由初步探索性数据分析(PExDA)框架——一个自动化管道进行补充。
多专科临床研究应用
目前平台上有19项临床研究项目进行中(13个项目数据已加载到平台,6个项目在获得IRB批准后加载),整合了5大IT数据源:EHR、病理学、实验室测试、PACS、eCRF和疾病特异性内部数据库,总计31,276名患者。项目涵盖以下领域:肿瘤学(8个)、心血管疾病(6个)、神经内分泌障碍(3个)、神经科学(2个)。研究展示了平台在肾细胞癌(ccRCC)和主动脉瓣狭窄(TAVI)两个项目中的实际应用。
肾癌预后预测模型验证
为验证平台生成高质量数据的核心能力,研究团队开发了一个术前AI模型,用于预测非转移性透明细胞肾细胞癌(ccRCC)患者的癌症特异性死亡率。研究使用两个不同数据集:手动整理的临床数据集(eCRF)和由S-RACE平台自动摄取和处理的无结构RWD数据集。关键实验是比较基于这两个数据源开发的AI模型性能。结果显示,基于自动处理RWD训练的模型与基于手动整理数据集训练的模型表现相当。通过应用可解释AI(XAI)技术,不仅确认了已知临床预测因子的重要性,还识别了仅存在于原始RWD中的新预后变量。
主动脉瓣狭窄项目的负责任AI实践
第二个案例展示了S-RACE平台的负责任AI能力如何增强模型开发,特别是在处理规模较小、更专业化的队列时。项目旨在识别不太可能从经导管主动脉瓣植入术(TAVI)中获益的严重主动脉瓣狭窄患者。鉴于有限的队列规模,确保模型稳健性至关重要。S-RACE数据科学实验室实现了复杂的分层嵌套交叉验证策略,这对从小型数据集生成可靠和无偏的性能估计至关重要。更重要的是,该项目利用平台集成的负责任AI工具超越标准准确度指标,进行基于决策树的错误分析,自动识别模型最可能做出错误分类的特定患者亚组。
平台比较与创新点
与N3C、i2b2 transMART、MSK-CHORD和Ehrapy等知名平台相比,S-RACE在架构和理念上有几个关键区别点,优先考虑数据质量、安全性和监管就绪性。主要区别在于战略上强调数据质量作为基础输出,平台首先被设计为数据整理引擎。混合云架构具有强制性的本地匿名化步骤,这种"隐私保护设计"方法确保敏感患者数据在伪匿名化前不会离开医院安全环境。S-RACE深度集成在Microsoft Azure生态系统中,为管道每个阶段提供一套可互操作工具。平台作为协作研究催化剂的角色,支持集中分析和隐私保护联邦学习两种协作模式。
研究结论与意义
S-RACE平台的成功开发标志着临床AI领域向标准化、可扩展基础设施迈出了重要一步。通过证明自动处理的RWD可以产生与手动整理数据相媲美的AI模型,研究为破解医疗AI发展的数据瓶颈提供了切实可行的解决方案。平台的多专科应用能力、严格的治理框架以及对国际标准的主动对齐,使其成为加速负责任AI临床转化的有力工具。更重要的是,S-RACE展示了一种新型临床研究范式——将高质量数据整理作为AI发展的基础,而非事后补救措施,这为构建真正可信、公平且有效的医疗AI系统奠定了坚实基础。随着平台不断扩展和优化,它有望成为连接临床实践与AI研究的重要桥梁,最终推动个性化医疗的发展。
研究的局限性包括平台目前主要关注预测/预后建模而非正式因果推断,以及部署模型可能因时间推移出现性能衰减的风险。未来工作将致力于建立完整的因果推断框架,并加强模型性能的持续监测和更新机制。总体而言,S-RACE平台代表了医疗AI基础设施发展的重要方向,为高质量RWD支持下的负责任AI研究提供了可复制的蓝图。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号