编辑推荐:
为解决多数癌症相关机器学习算法未达临床应用标准的问题,相关研究人员开展了对外部验证的 ML 模型的研究。结果发现整合 ML 于肿瘤决策需多方面改进。该研究为 ML 在肿瘤学的应用指明方向,推荐科研读者阅读。
癌症,这个可怕的 “杀手”,一直是全球健康的重大威胁。尽管我们对它的生物学基础了解得越来越多,新的治疗方法也不断涌现,但它依然是世界上第二大死因,给社会带来了沉重的经济负担,也让医生们压力山大。
在癌症的诊疗过程中,医生们会收集大量患者数据,像临床记录、检查结果、影像资料等,这些数据都被存进了电子健康记录(EHRs)里。数据越来越多,也越来越复杂,医生们要在这么多信息里找出有用的来做决策,简直像大海捞针,时间根本不够用。这时候,机器学习(ML)技术出现了,它是人工智能的一个分支,能从数据里找到规律,帮医生预测癌症、制定治疗方案,在医疗领域大显身手。比如在癌症诊断、基因分析、影像检查等方面,都能看到它的身影。
不过,目前大多数为癌症决策开发的算法还没办法真正应用到临床中。这是因为它们的方法报告和验证标准不太规范,很多只是在开发数据上表现不错,但换个数据就不行了,缺乏通用性。所以在使用新的人工智能方法前,得好好评估它,包括外部验证(在不同的、独立的患者数据集中测试模型的性能)和临床效用评估(看看这个工具对临床决策和患者治疗效果有没有实际帮助),还要用真实世界的数据。
为了解决这些问题,来自相关研究机构的研究人员在《BMC Medical Research Methodology》期刊上发表了题为 “Externally validated machine learning models for cancer patient care: A scoping review” 的论文。研究人员通过全面的文献检索和严格筛选,对符合条件的研究进行综合分析,最终发现成功将 ML 整合到肿瘤学决策中需要标准化的数据和方法、更大的样本量、更高的透明度以及更严格的验证和临床效用评估。这一结论为推动 ML 在肿瘤学中的实际应用指明了方向,对提高癌症诊疗水平具有重要意义。
研究人员在开展这项研究时,主要采用了以下关键技术方法:
- 文献检索:按照 Joanna Briggs Institute 的方法和相关指南,在 Embase、IEEE Xplore、PubMed、Scopus 和 Web of Science 等数据库中进行搜索,检索 2014 年 1 月至 2022 年 9 月发表的英文定量研究,且限定期刊为 Q1 区(SciMago Journal and Country Ranking > 1)。
- 筛选标准:制定了严格的纳入和排除标准,纳入新的或更新的、经过外部验证且有临床效用评估、报告了性能指标的 ML 或深度学习算法研究,排除非原发性研究、使用合成患者或动物数据、未评估临床效用等不符合要求的研究。
- 数据提取与分析:使用数据提取表提取相关数据,并以表格、图形和描述性形式呈现结果,运用 Pandas 1.3.4 和 Matplotlib 3.4.3(Python 3.9.7)进行统计分析和绘图。
下面咱们来详细看看这项研究的结果:
- 研究选择:研究人员在搜索后,对大量文献进行层层筛选。最初找到 13708 条记录,经过去重、按 SJR 排名筛选等操作,仔细评估标题和摘要,排除不符合条件的文献,又对剩下的文章进行全文检查,最终确定了 56 篇符合要求的文章。这就好比在一堆沙子里,一点点筛选出最有价值的金子。
- 研究概述
- 期刊、发表年份和报告指南:这 56 篇文章来自 31 种期刊,平均 SJR 为 2.496。发表时间主要集中在 2018 年之后,特别是 2020 年以后明显增多。不过,大多数研究都没有遵循特定的报告指南。这说明这个领域虽然发展迅速,但在规范研究报告方面还有很长的路要走。
- 算法、癌症类型和临床结果:研究里提到了 62 个模型,很多开发者喜欢用集成方法或者单一模型。大部分研究是基于深度学习的,其中卷积神经网络(CNNs)最常用。研究涉及多种癌症类型,像肺癌、消化系统癌症等研究得比较多,主要集中在诊断、检测和预测结果等方面。这表明在这些癌症领域,机器学习的应用更为广泛和深入。
- 临床输入和人群:根据输入数据的类型,模型可以分为基于图像的、基于文本的和混合的。基于图像的研究用了大量高分辨率图像,涉及多种成像技术;基于文本的研究则收集了患者的临床数据;混合研究结合了图像和文本数据。这些不同类型的研究为癌症诊疗提供了多维度的信息支持。
- 验证设计、临床环境和性能指标:多数研究同时进行模型开发和验证,使用真实世界的数据。大部分研究是回顾性的,多采用多机构合作的方式。验证类型包括时间验证和地理验证等。评估模型性能的指标有区分度、校准度和处理时间等,但很多研究在这些指标的报告上并不完整。这提示我们在评估模型时,需要更全面地考虑这些因素。
- 临床效用:大部分研究在摘要里提到了评估模型的临床效用,主要通过与临床医生的表现对比,或者和已有的临床工具比较来进行。结果发现,机器学习模型在很多方面表现得很不错,甚至能超越医生和传统工具。这让我们看到了机器学习在临床应用中的巨大潜力。
- 比较与临床工具
- 与临床医生比较:研究涉及 499 名不同专业的医生,通过不同的设计比较模型和医生的表现。结果显示,模型在很多性能指标上表现良好,甚至超过了部分医生,而且还能节省诊断时间。这就像给医生们配备了一个超级助手,帮助他们更高效、准确地诊断疾病。
- 与标准 / 既定临床工具比较:研究用 12 种标准临床工具和模型对比,涉及 11659 名患者。结果发现,一些模型在预测癌症生存和风险分层方面,比传统工具更有优势。这意味着机器学习模型有可能成为更精准的癌症诊疗工具。
在研究结论和讨论部分,研究人员指出,虽然近年来基于 ML 的临床决策受到越来越多关注,多机构合作也有所增加,但目前还存在一些问题。比如样本量小影响了数据质量和通用性,国际上不同种族间的验证有限,数据共享不一致,验证指标也不统一,校准报告也不够充分,这些都给模型比较带来了困难。不过,这项研究意义重大,它为未来的研究指明了方向。研究人员呼吁建立标准化的数据和方法,扩大样本量,提高透明度,加强验证和临床效用评估,这样才能让 ML 更好地应用于肿瘤学决策,帮助医生更准确地诊断和治疗癌症,最终造福患者。