探秘医疗机器学习稳健性:解锁模型可靠应用的密码

【字体: 时间:2025年01月23日 来源:npj Digital Medicine 12.4

编辑推荐:

  在医疗领域,机器学习(ML)模型虽表现出色,但面临扰动和环境变化时的稳健性存疑。研究人员开展了医疗中 ML 模型稳健性概念的范围综述,识别出 8 个概念,发现其因数据和模型类型而异,为相关利益者提供了重要参考。

  在当今医疗领域,人工智能(AI)和机器学习(ML)的应用越来越广泛。从疾病诊断到治疗方案的推荐,相关技术似乎有着无限的潜力。然而,在这些技术的实际应用中,却隐藏着诸多问题。想象一下,当一个用于疾病诊断的 ML 模型,在遇到一些细微的数据变化或者新的环境因素时,就可能给出错误的诊断结果,这无疑会给患者带来巨大的风险。
目前,基于 ML 的医疗解决方案,虽然在性能上常常能与人类专家媲美,甚至更胜一筹,但它们对扰动的脆弱性以及在新环境中的稳定性,也就是稳健性,却常常被忽视。而且,不同利益相关者对于模型的变化和扰动的理解也各不相同,这使得对模型稳健性的评估和保障变得更加复杂。就像在不同的医院环境中,同样的 ML 模型可能会因为数据的差异、设备的不同而表现出不同的性能。因此,明确 ML 模型在医疗应用中的稳健性概念,了解其影响因素,就显得尤为重要。

为了解决这些问题,来自法国巴黎西岱大学(Université Paris Cité)、巴黎索邦大学(Université Sorbonne Paris Nord)、INSERM、INRAE 等机构的研究人员开展了一项关于医疗中 ML 模型稳健性概念的范围综述研究。他们通过全面检索 PubMed、Web of Science、IEEE Xplore 等数据库,对相关文献进行筛选和分析,最终得出了一系列重要结论。这一研究成果发表在《npj Digital Medicine》上,为医疗领域中 ML 模型的开发、验证和部署提供了关键的指导。

研究人员在开展研究时,主要运用了以下关键技术方法:首先,通过制定详细的检索策略,在多个数据库中搜索相关研究,确保文献来源的全面性;然后,严格按照预先设定的纳入和排除标准,对检索到的文献进行筛选,由多位评审人员独立筛选和交叉核对,保证筛选结果的准确性;最后,对筛选后的文献进行数据提取和综合分析,将相关信息分类整理,从而得出有价值的结论 。

研究结果


  1. 一般特征:研究初始检索到 8585 条记录,去除重复后剩余 6920 条,经标题和摘要筛选排除 6201 条,再经全文评估,最终 274 条记录纳入研究。应用领域方面,肺科、妇科、神经科相关研究居多。数据类型上,图像数据最常用,其次是组学数据。模型类型中,深度学习方法占比最高。同时,研究还识别出 8 个稳健性概念,包括输入扰动和改变、缺失数据、标签噪声、不平衡数据、特征提取和选择、模型指定和学习、外部数据和领域转移、对抗攻击,其中对输入扰动和改变的研究最多,对不平衡数据的研究最少。
  2. 稳健性概念与数据和模型的关系:不同的数据类型和模型类型,对稳健性概念的侧重有所不同。在数据类型方面,基于图像衍生数据和组学数据的应用更强调特征提取和选择的稳健性;基于图像和生理信号数据的应用,对抗攻击的研究较多;使用临床数据的应用,则更多关注缺失数据的稳健性。在模型类型方面,深度学习模型主要应对对抗攻击和标签噪声的稳健性问题;混合模型涉及的稳健性概念最少,而深度学习模型涵盖的最多。此外,深度学习模型常用于图像数据,非深度学习方法常用于组学数据。

研究结论和讨论


研究人员通过此次范围综述,识别出 8 个代表医疗中 ML 模型面对不同扰动源时稳健性的概念,这些概念涵盖了 ML 模型生命周期的不同阶段。这一分类揭示了医疗应用中 ML 解决方案稳健性的多样性。同时,研究还发现稳健性与 ML 的其他内在原则,如泛化性、公平性和可解释性密切相关 。

此外,研究表明某些扰动源受预测模型或数据类型选择的影响较大,如对抗攻击主要用于评估基于图像数据训练的深度学习模型的稳健性;特征选择和提取的稳健性,多在处理高维数据的应用中被提及。而像标签噪声等概念则更为普遍,其产生原因多样,会对模型性能产生不同程度的影响。

不过,该研究也存在一定的局限性。例如,研究未提供或评估 “强化” 模型稳健性的方法,这需要多学科团队进一步研究;研究主要局限于包含 “robust”“noise”“perturbation” 等术语的文献,可能遗漏其他相关研究;研究具有时间局限性,未涵盖基于最新 ML 方法(如基础模型)的研究。

尽管如此,这项研究仍是探索医疗中 ML 模型稳健性的重要一步。它为后续研究指明了方向,未来可针对每个稳健性概念,确定相应的解决和缓解方法,还可对不同 ML 模型进行压力测试,探究其稳健性及影响因素。该研究为利益相关者理解和评估医疗环境中 ML 模型的稳健性提供了全面的视角,有助于提高这些模型在实际应用中的可靠性,推动医疗 AI 技术更加安全、有效地发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号