编辑推荐:
研究针对 AI 数据预处理难题,引入 RST 开展研究,证实其可提升肿瘤 ML 模型性能,意义重大。
在当今医疗领域,人工智能(AI)可谓是一颗耀眼的 “明星”,尤其是在医学影像分析方面,它展现出了巨大的潜力。传统的机器学习(ML)方法,以及基于复杂神经网络的深度学习,都在疾病的无创诊断和分类中大显身手。比如在癌症诊断上,结合放射组学分析与 ML 方法,能够为多种癌症构建预测模型,即使是在患者队列较小、难以大规模收集数据的情况下,也能发挥重要作用。
然而,AI 模型构建过程中数据预处理这一关键环节却面临诸多挑战。数据预处理是模型训练流程的重要部分,但它需要大量的数据科学家专业知识,主观性很强,难以实现标准化。目前现有的数据预处理方法,无论是自动化的还是商业的 AutoML 解决方案,大多基于复杂的数学方法,临床领域的专家由于缺乏深入的 AI 知识,很难直接参与到数据预处理算法中。可临床医生对疾病有着独特的见解,如果他们的知识能融入到数据预处理中,说不定能优化 ML 模型的训练过程。正是在这样的背景下,为了解决这些问题,来自维也纳医科大学等机构的研究人员开展了一项关于 “临床医生驱动的核医学 AI 环境中自动化数据预处理” 的研究,相关成果发表在《European Journal of Nuclear Medicine and Molecular Imaging》上。
研究人员为了实现临床专家在数据预处理中的参与,采用了多个关键技术方法。首先,引入规则集表(RST)作为临床医生与数据预处理算法沟通的桥梁。临床医生可以按照简单的预定义语法,在文本文件中编辑规则,这些规则会被 RST 接受并转化为机器可读的输入。其次,收集了三个不同癌症类型的患者队列数据,包括胶质瘤、前列腺癌和弥漫性大 B 细胞淋巴瘤(DLBCL),这些数据来自单中心或双中心。此外,研究中运用了符合成像生物标志物标准化倡议(IBSI)的特征提取技术,并结合患者人口统计学信息形成全组学数据集。在数据预处理阶段,采用了手动固定数据预处理管道(manual DP)和机器学习驱动的数据预处理(MLDP)两种方式,并设置了多种规则场景进行对比分析。最后,使用极端梯度提升(XGBoost)、随机森林(RF)和支持向量机(SVM)算法构建预测模型,并通过 100 倍蒙特卡罗交叉验证(MCCV)和混淆矩阵分析来评估模型性能。
下面来看具体的研究结果:
- 数据预处理管道:研究发现,在不同的癌症队列和规则场景下,数据预处理管道的复杂程度差异较大。例如,在预测 DLBCL 癌症患者 24 个月进展的模型中,采用 “pref - remove”“pref - keep” 指令以及不包含 RST 的 MLDP 预处理方法,仅使用了一个预处理步骤;而 “exp - keep” 和 “exp - remove” 指令则涉及更多的预处理算法。在胶质瘤和前列腺癌的预测模型中,特征选择和异常值检测算法在预处理管道中出现的频率较高。
- 特征分析:在不同癌症队列的模型中,输入特征的存在情况各有不同。对于 DLBCL 癌症预测,基于 MLDP 的模型在不同规则场景下,特征存在情况有所差异,手动预处理的数据则限制为 10 个最突出的特征。在胶质瘤和前列腺癌的预测模型中,也有类似的特征分布规律。总体而言,“exp - remove” 指令下的模型没有输入特征。
- 性能评估:在预测 DLBCL 癌症患者 24 个月进展方面,MLDP + RST XGBoost 模型表现最佳,平衡准确率(BACC)达到 81%;在手动 + RST 设置中,“pref - keep” 指令的模型性能最高。对于胶质瘤癌症患者 36 个月生存预测,MLDP + RST(exp - keep)和手动 + RST(exp - keep)的模型分别取得了 80% 和 81% 的 BACC。在前列腺癌患者高 - 低风险预测中,MLDP + RST(exp - keep)模型和手动 + RST(exp - keep)模型也展现出较高的性能,且 MLDP + RST 预处理的模型在整体上优于手动 + RST 预处理的模型。同时,XGBoost 分类器构建的模型在所有队列中表现最佳。
研究结论和讨论部分指出,这项研究验证了 RST 在提高肿瘤特异性 ML 模型预测性能方面的价值。与没有 RST 的模型相比,结合手动预处理和 RST 的 ML 模型 BACC 最高提升了 18%。其中,胶质瘤模型(“pref - keep” 指令)提升最为明显,而 DLBCL 模型提升相对较小。“exp - keep” 和 “pref - keep” 指令的模型在所有数据集中表现更优。这表明临床医生通过 RST 参与数据预处理不仅可行,而且必要。虽然 MLDP + RST 模型与仅基于 MLDP 的模型相比,未显示出额外优势,但在手动 DP 管道中,RST 指令显著提高了 ML 性能。此外,研究还发现数据预处理是一项复杂的任务,难以标准化。同时,研究也存在一定的局限性,如回顾性研究的性质,以及部分队列来自单中心等问题。
总的来说,这项研究为未来临床 ML 分析中数据预处理提供了新的思路和方法,RST 概念的应用有望让临床医生更好地控制 AI 研究中的数据预处理阶段,推动核医学 AI 技术在癌症诊断和预测领域的进一步发展。