编辑推荐:
本文综述了人工智能(AI)与真实世界数据(RWD)整合在癌症诊疗中的应用。探讨利用 RWD 开发癌症诊疗支持系统及生物标志物的优势与挑战,介绍相关数据来源、处理方法,强调解决现有问题对推动该技术临床应用的重要性。
引言
大量数字图像数据集和人工智能(AI)计算能力正革新放射学领域。图像不仅用于视觉诊断,还是 AI 模型的数据来源。这一进展催生了疾病检测方法、放疗规划工具,也推动了生物标志物开发。深度学习优于传统方法,但需大量数据,真实世界数据(RWD)可加速深度学习检测开发,因其常存储于电子健康记录(EHRs),整合多源患者信息。同时,大语言模型结合影像数据视觉语言模型,能深入分析医疗记录。不过,RWD 存在数据质量和完整性差异大、收集整合复杂等问题,解决这些问题对发挥其价值至关重要。本文将概述利用 RWD 和实施 AI 辅助影像工具及生物标志物的优缺点,并介绍相关数据来源、处理方法和增强信任的方式。
放射组学的发展与医学 AI 基础模型的兴起
1895 年伦琴发现 X 射线,开启放射学。20 世纪,超声、CT、PET、MRI 等技术革新癌症成像,医学影像数字化促进了数据收集和分析。但长期以来,放射学评估依赖视觉解读。2010 年代初,放射组学兴起,它提取医学图像定量特征,进行统计分析以发现临床相关模式。2016 年相关指南发布,推动标准化。深度学习进一步变革放射组学,直接从原始图像学习,卷积神经网络用于肿瘤检测和分割,还实现多模态 AI,整合多种数据提升预后预测和治疗反应评估。如今,AI 广泛应用于临床,超 700 种 AI 辅助放射学设备获 FDA 批准。基础模型的出现重塑 AI 领域,在放射组学中,它简化研究和临床流程,克服传统机器学习局限,整合多模态数据,提升 RWD 利用效率。
肿瘤学中的 RWD:临床试验之外的生物标志物开发
临床试验是评估新疗法和生物标志物的金标准,但 RWD 可提供疗法和工具在真实环境中的应用和性能信息。RWD 来源广泛,能全面反映患者特征、治疗模式和长期结果,在肿瘤学生物标志物开发中与临床试验数据互补。与临床试验数据相比,RWD 能研究更广泛多样的患者群体,临床试验样本选择严格,部分人群代表性不足,导致 AI 辅助工具在真实临床实践中可能缺乏可重复性或难以实施。RWD 来源广泛、控制较少,更适合识别代表真实人群的生物标志物,且 AI 模型可通过持续学习优化生物标志物模型。
使用 RWD 开发 AI 增强生物标志物的挑战
AI 算法可处理大量异质数据,发现新生物标志物和开发临床工具,但使用 RWD 也面临挑战。深度学习模型依赖大量数据,RWD 虽能满足数据需求,但数据质量参差不齐,数据收集方法差异、数据缺失和医疗系统差异会引入偏差,影响模型开发和验证,因此需进行数据预处理和质量控制。现有 AI 研究缺乏泛化性,RWD 有助于提高泛化性,但可能导致信号稀释,特定亚群模式丢失。在研究某些先进成像技术时,RWD 不如临床试验数据详细。此外,使用 RWD 还需考虑伦理问题,如保护患者隐私,可通过数据匿名化、分散式 AI 模型开发等方式解决。
解决基于真实世界图像数据的放射组学生物标志物开发中的挑战
真实世界图像数据为放射组学生物标志物开发提供巨大潜力,但面临诸多挑战,需通过有效方法应对,以开发可靠且临床有用的生物标志物。
信号稀释
RWD 的异质性导致信号稀释,特定亚群模式可能被掩盖。可在实验设计中对亚群分层,隔离不同群体的影响和反应,还需在外部队列中验证研究结果,最好通过前瞻性研究进行。
隐私和安全
保护 RWD 隐私和安全至关重要。隐私方面,要对患者数据匿名化、确保患者同意、遵守法规和公平使用数据。安全方面,需采取措施保障数据存储和管理安全,防止数据泄露。联邦或群体学习平台、基础模型的嵌入技术可降低隐私风险。
采集协议
成像 RWD 的可变性源于扫描仪、采集设置、操作人员差异等因素。标准化图像采集和处理对放射组学生物标志物的可重复性和泛化性至关重要,相关组织制定的共识协议有助于减少可变性。
图像质量
真实世界图像质量差异大,受设备、采集协议和操作人员影响,图像分辨率、对比度、噪声和伪影会影响放射组学特征提取的准确性。可通过算法减少伪影影响、匹配图像分辨率和对比度、降低信号噪声,如使用高斯平滑等算法。
AI 处理
使用成像 RWD 进行 AI 处理时,需预处理图像以标准化质量,归一化图像以减少采集差异影响。手工制作放射组学时,要确保特征提取算法和参数一致,开源库可提供标准化流程,深度学习虽能自动化部分流程,但仍可能需要一些预处理步骤。
基于放射组学的生物标志物:建立信任并整合到医疗系统中
在癌症护理中实施 AI 辅助影像工具,需建立医疗专业人员、患者和监管机构的信任。临床医生可能对复杂算法持怀疑态度,AI 开发者应与多领域专家合作,确保成像生物标志物的可靠性。可解释性是增强信任的关键,注意力图、Shapley 值等方法可解释 AI 决策过程,所有 AI 工具还需经过严格技术和临床验证,并遵守法规。将 AI 辅助成像生物标志物整合到放射科工作流程,需培训人员、将工具融入现有软件平台,确保与现有系统无缝对接,简化医生日常工作。
用于 AI 辅助工具开发和生物标志物发现的真实世界放射学数据来源
真实世界图像数据对肿瘤学计算机辅助支持系统开发和验证意义重大,可推动肿瘤检测、放疗规划和生物标志物识别等工作。其来源包括医院 PACS 系统,存储多种影像数据并可与 EHR 系统关联;国家和国际癌症登记处,收集大量癌症相关数据;协作研究网络,提供注释良好的公开影像数据集;还有数据竞赛数据集平台,如 Kaggle 等,包含癌症成像数据集。
讨论
AI 辅助工具开发需要大量多样数据集,但多中心数据库稀缺限制其发展和临床应用。AI 与 RWD 整合潜力巨大,可用于器官勾画、肿瘤检测和个性化决策。RWD 反映真实临床实践,但存在数据质量问题,标准化图像采集、处理和特征提取至关重要,相关组织的指南有助于解决这些问题。临床验证 AI 生物标志物、建立各方信任、确保算法可解释性以及将其有效整合到临床工作流程,是推动 AI 和 RWD 在放射学中临床应用的关键。