编辑推荐:
为解决麻风病诊断难题,巴西圣保罗大学的研究人员开展基于麻风病疑似问卷(LSQ)的机器学习筛查研究,开发出 MaLeSQs 工具,对麻风病筛查意义重大。
麻风病,这个名字听起来或许有些陌生,但它却是一种能给患者带来极大痛苦的慢性传染病。它就像一个隐藏在暗处的 “伪装者”,不仅潜伏期长达 2 - 5 年,而且还擅长模仿多种疾病。它可能伪装成风湿性疾病,如炎性关节炎、非特异性关节炎;也可能伪装成神经系统疾病,像糖尿病和淀粉样神经病;甚至还会伪装成皮肤病,比如狼疮、蕈样肉芽肿和银屑病等。这使得很多专业人员在诊断时容易 “看走眼”,导致麻风病常常被漏诊。
世界卫生组织将积极寻找新的麻风病病例作为实现 “零麻风病” 战略的四大支柱之一。在此背景下,麻风病疑似问卷(Leprosy Suspicion Questionnaire,LSQ)应运而生。它由 14 个简单的 “是 / 否” 问题组成,涵盖了神经系统和皮肤病症状等方面,旨在成为一种积极检测新病例的筛查工具。然而,LSQ 在实际应用中还存在一些局限性,比如如何更精准地利用问卷结果进行诊断。
为了攻克这些难题,巴西圣保罗大学(University of S?o Paulo)的 Mateus Mendon?a Ramos Sim?es 等人开展了一项极具意义的研究。他们将机器学习算法应用于 LSQ 的分析,开发出了一种名为 MaLeSQs(Machine Learning for Leprosy Suspicion Questionnaire Screening)的机器学习工具,相关成果为麻风病的筛查提供了新的有力手段。
在研究过程中,研究人员使用了多种关键技术方法。首先,他们收集了来自巴西圣保罗州里贝朗普雷图地区的多个活动中的数据,包括不同的麻风病患者识别活动、专业培训期间的筛查数据以及私人诊所的患者数据,构建了包含 1842 个实例的数据集。针对数据集中存在的问题,研究人员进行了数据清洗,去除了缺失值过多的变量。同时,运用数据增强技术,通过组合问题创建新变量,增加数据的丰富度。为了解决数据不平衡问题,采用合成少数过采样技术(Synthetic Minority Oversampling Technique,SMOTE)对数据进行处理。此外,还使用了 Boruta 方法进行特征选择,以去除噪声变量。最后,运用支持向量机(Support Vectors Machine,SVM)、逻辑回归(Logistic Regression,LR)、随机森林(Random Forest,RF)和极端梯度提升(XGBoost,XGB)这四种不同范式的分类器进行模型训练,并通过超参数优化提高模型性能。
下面来看具体的研究结果:
- 探索性数据分析和预处理:通过卡方检验比较健康个体和新确诊麻风病患者的 LSQ 结果,发现 q8、q10 和 q13 这三个问题在两组间无显著差异,但为保留信息仍将其保留在数据集中。同时,有 9 个问题的 p 值小于 0.05,这表明 LSQ 在区分健康个体和患者方面有一定作用。此外,研究人员利用 ? 系数构建关联矩阵,去除了相关性过高()的变量,使数据集变量从 78 个减少到 54 个。之后,通过 Boruta 特征选择,最终保留了 38 个变量。
- 分类器和超参数优化:经过网格搜索,确定了每个分类器的最佳超参数。SVM 的最佳超参数为,核函数为径向基函数(rbf);LR 的最佳超参数为,惩罚项为 L2;RF 的最佳超参数包括 450 个估计器(树),最大深度为 5,最小样本分裂数为 100,最大特征数为 6,最大样本率为 0.3,最小样本叶数为 10,最大叶节点数为 9;XGBoost 的最佳学习率为 0.0001,估计器数量为 100,最大树深度为 6,最小子节点权重为 5,子采样率为 0.5,列采样率为 0.5,gamma 值为 0.2,lambda 值为 1.0,alpha 值为 0.02 。
- 分类器的性能:以混淆矩阵、ROC 曲线及其曲线下面积等指标来衡量分类器性能。SVM 的敏感性为 85.7%,特异性为 69.2%,精度为 18.6%,阴性预测值为 98.3%;LR 的敏感性为 60.7%,特异性为 80.7%,精度为 20.5%,阴性预测值为 96.2%;RF 的敏感性为 75.0%,特异性为 76.0%,精度为 20.4%,阴性预测值为 97.4%;XGBoost 的敏感性为 67.9%,特异性为 77.7%,精度为 20.0%,阴性预测值为 96.7%。综合考虑,SVM 在敏感性和特异性之间达到了较好的平衡,其 ROC 曲线下面积(AUROC)为 0.775,预测能力最强。
- 模型的可解释性:通过计算 Shapley 值来深入理解模型的分类过程。结果发现,所有分类器的前 10 个最重要变量基本相同,主要包括 q1、q2、q3 等问题。同时,一些问题如 q8、q9 和 q11 呈现出反直觉的现象,当个体对这些问题回答为 “是” 时,模型反而倾向于将其分类为健康个体,这是因为这些问题涉及到疾病的更晚期症状。
在讨论部分,研究人员指出,MaLeSQs 展示出了强大的应用潜力。其分类器在敏感性和特异性上的良好平衡,以及可接受的 AUC 值,都证明了该工具的有效性。尽管精度较低,但对于筛查目的来说,少量的假阳性结果是可以接受的,因为这能促使健康人寻求医疗帮助,同时也为医护人员提供了教育患者的机会。与传统的麻风病诊断测试相比,MaLeSQs 结合 LSQ 的方法无需血液样本、昂贵设备或高度专业的人员,具有更高的适用性。
不过,该研究也存在一定的局限性。研究使用的是高患病率的研究人群,未来需要在不同地区进行实地研究,以验证算法在不同人群中的表现。此外,还可以尝试使用无监督特征选择等方法来进一步优化模型。
总的来说,这项研究成功开发并验证了 MaLeSQs 这一基于机器学习分析 LSQ 的工具,为麻风病的筛查提供了新的有效途径。它有望在资源有限的地区发挥重要作用,助力全球抗击麻风病的行动,对降低麻风病的漏诊率、提高诊断效率具有重要的现实意义。