基于机器学习的慢性肾脏病表型识别框架:结合k-means与潜在类别分析的双重验证方法
《Healthcare Analytics》:A machine learning framework for identifying phenotypes in chronic kidney disease
【字体:
大
中
小
】
时间:2025年10月18日
来源:Healthcare Analytics CS4.4
编辑推荐:
本研究针对慢性肾脏病(CKD)患者表型异质性识别难题,开发了一种结合k-means聚类和潜在类别分析(LCA)的机器学习框架。研究人员通过对西弗吉尼亚州75,033例CKD患者数据分析,发现AKI病史显著影响CKD表型特征,两种聚类方法一致性超过80%。该研究为精准医疗提供了可靠的表型识别工具,有助于制定个性化诊疗方案。
在当今数据驱动的医疗时代,准确识别患者表型已成为提升医疗质量的关键环节。慢性肾脏病(CKD)作为一种复杂的临床综合征,表现出显著的异质性特征,这使得传统诊断标准难以满足精准医疗的需求。特别是急性肾损伤(AKI)与CKD之间的病理生理联系尚未完全阐明,AKI后发展为CKD的风险比无AKI病史者高出13倍,这一严峻现实凸显了深入探索AKI-CKD转化机制的必要性。
目前临床实践主要依赖传统的分期系统,这些系统往往无法充分捕捉并发症、治疗因素和患者特征之间的复杂相互作用。尽管机器学习(ML)方法在预测模型方面展现出潜力,但系统比较不同聚类方法在识别AKI相关CKD表型方面的研究仍然匮乏。此外,现有表型研究多局限于单中心数据,缺乏临床验证环节,严重限制了其向临床实践的转化。
为应对这些挑战,罗切斯特理工学院工业与系统工程系的Marzieh Amiri Shahbazi等研究人员在《Healthcare Analytics》上发表了创新性研究。他们开发了一个综合机器学习框架,通过结合分区聚类(k-means)和概率建模(潜在类别分析,LCA)方法,对CKD患者表型进行系统识别和验证。
研究团队从TriNetX平台获取了2008年2月至2022年6月期间西弗吉尼亚州的CKD患者数据,最终纳入4,733例有AKI病史的CKD患者(队列1)和5,178例无AKI病史的CKD患者(队列2)。所有临床特征均转换为二元指标进行分析,涵盖合并症、手术操作、实验室结果、生命体征和药物治疗五大类别。
关键技术方法包括:使用逻辑主成分分析(LPCA)进行维度缩减,保留80%的原始数据方差;应用k-means聚类和潜在类别分析(LCA)进行患者分群;通过随机森林(RF)进行特征选择;采用偏好概率(PP)指标评估表型显著性。
研究结果方面,通过患者人口统计学特征分析发现,队列1患者平均年龄68岁,略低于队列2的70岁,两组BMI均为30.9 kg/m2,男性比例均为51%,白人占比约90%。但在合并症方面,队列1在血液疾病(73.93% vs 64.06%)、心房颤动(46.04% vs 37.66%)等指标上显著高于队列2。
LPCA和k-means聚类结果显示,通过肘部法则确定5个为最优聚类数。LCA分析同样支持5个潜类的模型结构,贝叶斯信息准则(BIC)值最低。两个队列各识别出5个具有明显表型特征的患者亚群。
队列1的表型特征包括:最小健康问题群体(741例)、代谢功能障碍群体(868例)、血液学特征群体(1,006例)、凝血异常群体(1,147例)以及急性心呼吸疾病群体(971例)。队列2则识别出:心脏诊断管理群体(995例)、医疗可及性群体(1,127例)、心脏风险评估群体(752例)、财务考量群体(1,091例)和心血管准备群体(1,213例)。
两种聚类方法比较显示高度一致性,队列1中超过85%的患者在k-means和LCA分类中保持一致,队列2的一致性也超过80%。这种高度一致性验证了所识别表型的稳健性。
研究结论表明,AKI相关CKD更常与代谢功能障碍和血液学/凝血负担表型相关,而非AKI相关CKD则更多表现为护理过程/操作相关表型。这些发现支持表型特异性护理路径的开发,如基于集群的实验室监测面板、随访间隔和护理协调清单,有助于优化资源分配和临床决策。
该研究的创新之处在于建立了结合互补聚类算法的分析框架,通过交叉验证增强了表型识别结果的可信度。研究结果不仅深化了对AKI-CKD转化机制的理解,还为表型导向的精准医疗实践提供了方法论支持。未来需要在更广泛人群中验证这些表型模式,并开展结果导向的干预研究,以推动研究成果向临床实践转化。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号