编辑推荐:
为解决 2 型糖尿病(T2DM)患者糖尿病周围神经病变(DPN)早期诊断难题,齐鲁医药学院等单位研究人员开展基于中医特征和机器学习预测 DPN 的研究。结果显示 RF 和 LGBM 模型有效,意义重大。推荐科研读者一读!
在当今社会,糖尿病就像一个潜伏在人群中的 “健康杀手”,尤其是 2 型糖尿病(T2DM),它在全球范围内肆意蔓延。由于遗传因素、人们无节制的饮食,再加上现代生活中运动不足等环境因素的影响,2 型糖尿病的患者数量急剧增加。据统计,全球 20 - 79 岁的成年人中,约有 4.63 亿人被诊断患有糖尿病,中国更是糖尿病患者的 “重灾区”,人数高达约 1.16 亿,其中大部分都是 2 型糖尿病患者。
2 型糖尿病作为一种慢性代谢疾病,高血糖是它的典型特征,而且患者的身体对胰岛素不敏感。要是血糖控制不好,各种并发症就会接踵而至,心脏、肾脏、神经系统等都会受到影响。在这些并发症里,糖尿病周围神经病变(DPN)是最常见的一种,它悄无声息地影响着患者的生活。得了 DPN,患者的肢体常常会出现感觉和运动功能障碍,睡眠质量直线下降,还可能陷入抑郁的情绪中,生活质量大打折扣,社交活动也受到严重限制。随着病情的发展,大约一半的糖尿病患者都会患上 DPN,这也是导致足部溃疡、残疾甚至截肢的主要原因,给患者带来了沉重的身体负担和经济压力。
更让人头疼的是,DPN 早期症状不明显,等到患者察觉到的时候,病情往往已经发展到不可逆的阶段了。目前,虽然神经传导研究是诊断 DPN 的可靠方法,但它成本高、耗时长、操作繁琐,在日常临床诊疗中很难推广。而常规的临床评估手段,在检测出神经病变时,病情也已经比较严重了。所以,寻找一种能够早期发现 DPN 的方法迫在眉睫。
就在大家为这个难题发愁的时候,传统中医(TCM)为我们提供了新的思路。中医有着悠久的历史,在糖尿病(中医称之为 “消渴” 病)的诊断和治疗方面积累了丰富的经验。中医的舌诊是其独特的诊断方法之一,通过观察舌头的颜色、形态、舌苔等特征,能判断人体阴阳的平衡状态,有助于早期发现疾病。而且中医注重辨证论治,个性化十足。要是能把中医的这些优势融入到临床预测模型中,说不定就能为糖尿病患者带来福音。
基于这样的背景,来自齐鲁医药学院康复医学院等单位的研究人员,在《BMC Medical Informatics and Decision Making》期刊上发表了一篇名为 “Diabetic peripheral neuropathy detection of type 2 diabetes using machine learning from TCM features: a cross - sectional study” 的论文。他们通过研究发现,随机森林(RF)和轻梯度提升机(LGBM)模型可以利用中医症状和舌象特征,有效地筛查出 2 型糖尿病患者中 DPN 的高风险人群。而且,年龄、舌苔、吸烟等这些与中医相关的特征,对于制定 2 型糖尿病患者的预防措施很有帮助。这一研究成果为早期发现和预防 DPN 提供了新的方向,意义重大。
为了完成这项研究,研究人员使用了多种技术方法。他们首先收集了大量数据,在 2019 年 1 月到 2020 年 10 月期间,从天津中医药大学第二附属医院内分泌科和中医外科招募了 4723 名受试者,这些人包括 4430 名 2 型糖尿病患者和 293 名 DPN 患者。研究人员通过标准化问卷收集了受试者的年龄、性别、BMI、血糖、吸烟状况等理化指标,以及疲劳、失眠、出汗等中医临床症状信息。同时,利用 TFDA - 1 仪器采集了受试者的舌象图片,记录了舌色(如深红色舌、紫色舌、暗红色舌)、舌态(如肿大舌、瘀斑舌、齿痕舌、裂纹舌)、舌苔(如黄色苔、少苔、厚苔、腻苔)等特征。
在数据分析阶段,研究人员运用了多种统计软件和算法。他们用 LASSO(最小绝对收缩和选择算子)回归来筛选最有价值的候选变量,还用最佳子集选择法进一步优化变量选择。由于 2 型糖尿病患者数量远多于 DPN 患者,数据存在不平衡的问题,研究人员采用合成少数过采样技术(SMOTE)算法来解决这个问题。最后,他们运用逻辑回归(LR)、随机森林(RF)、支持向量机(SVC)和轻梯度提升机(LGBM)这四种机器学习算法,构建了 DPN 预测模型,并通过准确率、精确率、召回率、F - 1 评分和受试者工作特征曲线下面积(AUC)等指标来评估模型的性能。
下面我们来看看具体的研究结果:
基线特征
研究人员对 2019 - 2020 年纳入的 4723 名符合条件的糖尿病患者进行分析,发现 DPN 组和 2 型糖尿病组在多个方面存在差异。DPN 组中 60 岁以上的患者比 2 型糖尿病组更多;在 BMI 方面,最常见的范围是 24.6 - 28 ,而且 DPN 组中男性比例更大;DPN 组的吸烟者比例也明显高于 2 型糖尿病组。此外,年龄、BMI、性别、吸烟状况、失眠、出汗、牙齿松动、皮肤干燥、多尿、紫色舌、暗红色舌、黄色苔、腻苔等因素,都和 DPN 的发生有显著关联。通过对这些基线特征的分析,研究人员初步了解了与 DPN 相关的一些因素,为后续研究打下了基础。
特征选择
研究人员利用 LASSO 回归对数据进行处理,把原本的 29 个特征减少到 12 个,这些特征都和 DPN 的发生密切相关,比如年龄、吸烟、失眠、出汗等。之后,他们又用最佳子集选择法,进一步筛选出 8 个特征。综合考虑中医的临床意义,最终得到了包含 12 个 DPN 相关特征的预测模型。这一步就像是在大海里捞针,研究人员通过这些方法,精准地找到了和 DPN 关系最紧密的特征,让后续的模型构建更有针对性。
SMOTE 算法验证
研究人员使用 SMOTE 算法,成功得到了一个包含 8840 个样本的平衡数据集,其中训练样本 6202 个,验证样本 2658 个,比例为 7:3 。这个平衡后的数据集所有属性在统计学上都有显著意义,为后续模型性能的准确评估提供了保障。就好比把参差不齐的队伍整理得整整齐齐,让大家在同一起跑线上进行比赛,这样得出的结果才更公平、更可靠。
模型性能比较
研究人员比较了逻辑回归(LR)、随机森林(RF)、支持向量机(SVC)和轻梯度提升机(LGBM)这四种机器学习模型的性能。结果发现,RF 模型的准确率最高,达到了 0.767,在精确率、F - 1 评分和 AUC 等指标上也表现出色;LGBM 模型的召回率最高,为 0.879。从整体来看,RF 模型的综合性能最好,它就像一个全能选手,在各项指标上都有不错的表现,能够更有效地预测 DPN 的发生。
特征重要性
研究人员进一步分析了特征的重要性,发现 RF 模型中,年龄、出汗、暗红色舌、失眠和吸烟是最重要的五个特征;LGBM 模型中,年龄、黄色苔、牙齿松动、吸烟和失眠则是关键特征。这就像是找到了开启 DPN 预测大门的几把重要钥匙,通过这些特征,医生可以更有针对性地关注患者的情况,提前预防 DPN 的发生。
综合研究结果和讨论部分,这项研究意义非凡。它首次将中医症状和舌象特征与机器学习相结合,构建了预测 DPN 的模型,为早期发现 DPN 提供了新的方法。之前的研究大多只关注实验室指标,忽略了中医的这些宝贵资源,而这次研究填补了这个空白。研究中发现的年龄、吸烟等风险因素,和以往的研究结果相呼应,进一步证实了它们与 DPN 的关联。而且,像出汗异常、牙齿松动、舌苔变化等特征,也为我们了解 DPN 的发病机制提供了新的视角。这不仅有助于中医更好地发挥在糖尿病防治中的作用,还能让医生根据这些特征,为患者制定更个性化的预防和治疗方案,提高患者的生活质量,减轻他们的痛苦。虽然这项研究还存在一些局限性,比如研究对象只来自天津的一个中心,研究设计是横断面研究等,但它为后续的研究指明了方向。相信在未来,随着研究的不断深入,会有更多更好的方法来预防和治疗 DPN,为糖尿病患者带来更多的希望。