编辑推荐:
为解决结核病治疗结局预测难、现有研究局限性大的问题,南京医科大学研究人员开展用生化指标和机器学习预测 TB 治疗结局的研究。结果发现关键预测指标,构建高准确率模型。推荐阅读,探索结核病防控新思路。
在全球健康的大舞台上,结核病(TB)绝对是一个不容忽视的 “反派角色”。它由结核分枝杆菌(M.tb)引起,悄无声息地潜入人们的生活,据估计,全球约四分之一的人口都被它 “盯上” 了。世界卫生组织(WHO)为了对抗这个 “反派”,制定了详细的治疗方案,对于药物敏感的结核病患者,采用为期六个月的四种一线药物联合治疗;而对于耐药结核病患者,治疗过程则更加漫长和复杂,需要使用贝达喹啉或德拉马尼等药物。
然而,结核病的治疗结果并不总是如人所愿。WHO 将治疗结果分为成功、治疗失败、治疗完成和失访几类,按照最新定义,治疗中断也被归为治疗失败。这可不是小事,治疗中断不仅会让患者的症状加重,延长感染时间,还会增加疾病传播的风险,甚至可能引发甲状腺功能障碍等其他健康问题。大约 5 - 11% 的患者会因为药物不良反应而中断治疗,这些反应从轻微不适到严重的肝毒性、高尿酸血症等都有,使得患者不得不停止用药。
再看之前预测结核病治疗结果的研究,大多聚焦在耐药和死亡等严重不良事件上。虽然这些研究利用了先进的生物标志物,像转录组学、基因组学和放射成像技术来寻找预测指标,但问题也不少。一方面,这些严重结果在患者中发生的比例相对较低,导致这些模型对于大多数没有出现这些并发症的患者适用性不强;另一方面,转录组学和基因组学分析虽然很厉害,能深入了解疾病机制,但由于技术复杂、成本高昂,在临床中并不能广泛应用,使得依赖这些数据的预测模型难以在日常医疗中发挥作用。
为了解决这些问题,南京医科大学的研究人员展开了一场科研 “大冒险”。他们的研究成果发表在《BMC Infectious Diseases》期刊上,论文题目是《Prediction of tuberculosis treatment outcomes using biochemical makers with machine learning》。这场 “冒险” 收获颇丰,他们成功构建了一个模型,能通过患者入院时的初始检测结果,预测结核病的治疗结果,这个模型的预测准确率还挺高,受试者工作特征曲线下面积(AUC)达到了 0.87。而且,研究发现 5’ - 核苷酸酶(5’ - NT)、尿酸、球蛋白、肌酐、胱抑素 C 和天冬氨酸转氨酶(AST)这些指标升高,与治疗失败密切相关。这一成果不仅为结核病的防控提供了新的视角,还强调了在临床中利用常规生化标志物进行早期风险评估的重要性,有助于制定个性化的患者管理和监测计划,提高治疗成功率,降低治疗中断的风险。
在这场科研 “大冒险” 中,研究人员用到了几个关键的技术方法。他们先是收集了大量患者的数据,这些数据可不是随便来的,都是符合研究要求的结核病患者。然后,运用了 7 种特征选择方法,像互信息(MI)、F 检验、Spearman 等,从众多特征中挑选出最 “有用” 的。同时,还采用了 12 种机器学习算法,比如 AdaBoost、决策树、K 近邻(KNN)等,建立了一个算法库,通过不断尝试不同的组合,找到最适合预测结核病治疗结果的模型。最后,利用 SHapley Additive exPlanations(SHAP)分析,来评估模型中各个特征的重要性。
下面来看看研究人员的 “冒险收获”,也就是研究结果。
患者的特征
研究人员召集了 1086 位完成结核病治疗的患者。这里面有 361 位女性,725 位男性。治疗结果也各不相同,607 位患者治疗成功,479 位患者治疗失败。治疗失败的原因多种多样,有的是因为治疗中断,有的是治疗方案需要改变,还有的是出现了耐药情况。在治疗中断的患者里,245 人出现了肝功能异常,321 人有血小板减少症,133 人患上了高尿酸血症,14 人出现皮疹。还有 22 位患者需要更改治疗方案,其中 16 人发展成了耐药结核病,好在研究期间没有患者死亡。而且,治疗失败大多发生在抗结核治疗的第二个月。
互信息与 K 近邻算法结合确定最优模型
研究人员面对包含 94 个临床指标的数据集,就像面对一个装满各种工具的大箱子,得从中挑选出最有用的工具。他们尝试了各种特征选择算法,互信息(MI)脱颖而出。MI 就像一个 “智慧小助手”,能衡量特征和目标变量之间的依赖关系,帮助找到最有价值的预测指标,还能让模型变得更 “聪明”,计算起来也更轻松。用不同的分类器方法对挑选出的特征进行交叉验证后,研究人员发现,用 MI 算法挑选出 5’ - 核苷酸酶(5’ - NT)、尿酸、球蛋白、肌酐、胱抑素 C 和天冬氨酸转氨酶(AST)这 6 个关键特征,再构建 K 近邻(KNN)模型,效果特别好。这个模型在测试集上表现出色,AUC 达到 0.87,准确率(ACC)为 0.82,灵敏度为 0.69,特异性为 0.92。
5’ - NT、尿酸、球蛋白水平升高与治疗失败相关
为了搞清楚这些特征对模型预测的贡献,研究人员又用了 SHAP 分析这个 “透视镜”。结果发现,在这些特征里,一些生化标志物对预测治疗成功或失败的作用比其他的更重要。5’ - NT 水平升高对预测概率影响很大,能让概率增加 0.16;尿酸和球蛋白也不甘示弱,分别能让概率增加 0.16 和 0.12。其他因素虽然影响相对小一些,但也为整体预测准确率出了一份力。
最后来总结一下研究结论和讨论部分。这次研究成功搭建了预测结核病治疗结果的模型,还找到了和治疗失败密切相关的几个关键指标,这可太有意义了。从临床角度看,医生可以根据患者治疗前这些指标的水平,提前知道患者可能面临的风险,给患者提供更有针对性的健康教育,比如饮食方面的建议,帮助患者减少不良反应的发生。不过,这个研究也有一些小 “遗憾”。比如,失访率比较高,1990 个初始病例里,有 904 人失访,这可能会让研究结果有点 “跑偏”,还降低了统计的可靠性,研究结果可能没办法很好地代表更广泛的人群。而且,研究是在单中心进行的,没有经过外部验证,不同医院的诊断和治疗方案可能不一样,这个模型在其他地方不一定能用。但这也为后续研究指明了方向,未来可以开展多中心研究,让这个模型更加可靠,在临床实践中发挥更大的作用,更好地帮助医生和患者对抗结核病这个 “大反派”。