基于变分自编码器树模型的中国人群2型糖尿病精准表型分析揭示种族特异性异质性

《Nature Communications》:Precision phenotyping of type 2 diabetes in chinese populations using a variational autoencoder-informed tree model

【字体: 时间:2026年01月15日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对2型糖尿病(T2D)临床异质性存在的种族差异问题,研究人员开发了一种融合变分自编码器(VAE)和判别降维树(DDRTree)算法的中国人群特异性表型分析模型。通过对32,501例新诊断中国T2D患者的多中心队列研究,发现与欧洲人群相比,中国T2D患者在糖尿病视网膜病变(DR)等并发症风险分布上存在显著差异。该模型成功构建了中国人群特异的糖尿病表型树状图谱,可实现对并发症风险的精准预测,为推进精准糖尿病学提供了重要工具。

  
2型糖尿病是一种高度异质性的代谢性疾病,其临床表现、疾病进展和治疗反应在个体间存在显著差异。长期以来,糖尿病分类主要依赖血糖水平和有限的临床特征,这种粗放式的分类方法难以捕捉疾病的内在异质性。更值得注意的是,当前大多数糖尿病分型模型都源于欧洲人群,其在其他种族人群中的适用性存在疑问。亚洲人群的2型糖尿病具有独特特征,如发病年龄较早、体重指数(BMI)较低、β细胞功能受损更显著等,这凸显了开发人群特异性分类模型的迫切需求。
近日发表在《Nature Communications》的一项研究填补了这一空白。由Tong Yue、Wenhao Zhang、Yu Ding等研究人员组成的团队,开发了一种基于变分自编码器(VAE)的树模型,成功实现了中国人群2型糖尿病的精准表型分析。这项研究通过对全国性电子健康记录(EHR)数据库中的32,501例新诊断2型糖尿病患者进行分析,揭示了中国人群特有的糖尿病表型特征和并发症风险模式。
研究方法上,团队首先利用包含860万人的中国肾脏疾病系统(CRDS)数据库,识别出新诊断的2型糖尿病患者。研究采用了两步分析策略:首先将中国患者映射到已发表的苏格兰糖尿病树模型进行比较,然后通过VAE框架筛选关键临床特征,使用判别降维树(DDRTree)算法构建中国人群特异的树状结构模型。研究还利用联合亚洲糖尿病评估(JADE)队列和糖尿病视网膜病变(DR)队列进行了外部验证,确保模型的稳健性和泛化能力。
映射中国人群至苏格兰树模型
研究人员首先将32,501例中国2型糖尿病患者映射到基于9个临床变量建立的苏格兰糖尿病树模型上。结果显示,尽管许多临床特征和并发症风险在两国人群中分布相似,但也存在显著差异。中国患者由于BMI较低,很少映射到树的右侧区域。最引人注目的发现是糖尿病视网膜病变的风险分布:中国人群中高风险区域位于左上部分,与苏格兰人群的右上部分集中形成鲜明对比,且与中国患者较高的高密度脂蛋白胆固醇(HDL-C)、肝纤维化-4(FIB-4)指数和天冬氨酸氨基转移酶/丙氨酸氨基转移酶比值(AST/ALT比值)相关。
中国树模型的开发与性能
为更好捕捉中国人群特异性异质性,研究团队开发了融合VAE和机器学习的特征选择框架。VAE模型使用45,589例2型糖尿病患者和11,340名健康人的50个临床变量进行训练,最终筛选出10个最关键特征:HDL-C、甘油三酯、收缩压(SBP)、ALT、糖化血红蛋白(HbA1c)、低密度脂蛋白胆固醇(LDL-C)、肌酐(Cr)、心率、BMI和舒张压(DBP)。基于这些特征构建的中国糖尿病树呈现出六种明显表型分支,每个分支具有独特的临床特征和并发症风险谱。例如,分支1与DR和周围血管疾病风险相关,其特征是HDL-C和LDL-C升高;分支4和5则以较高BMI、血压和肾功能下降为特征,伴随心力衰竭和心肌梗死风险增加。
中国树模型的验证
研究团队在内部验证集和两个外部队列中验证了中国树模型的性能。JADE队列包含2,328例中国2型糖尿病患者,来自与中国大陆医疗体系不同的香港特别行政区。验证结果显示,中国树模型在不同医疗体系的队列中均保持稳定,并发症风险分布模式与训练集高度一致。特别针对DR风险的验证中,专门构建的DR队列(1,006例患者)进一步证实了中国人群特有的DR风险分布模式。
肝病相关风险的敏感性分析
考虑到肝病在中国的高发率,研究人员进行了细致的敏感性分析。排除基线患有病毒性肝炎的患者后,肝纤维化和脂肪肝的分布模式基本保持不变,证实了肝病相关表型在中国糖尿病异质性中的重要作用。数据表明,代谢功能障碍相关脂肪肝病(MASLD)和肝硬化常与多种糖尿病并发症共存,强调了在解读中国人群糖尿病表型结构时考虑肝病负担的重要性。
个体在树模型内的迁移
通过分析5年随访数据,研究发现约三分之一的中国糖尿病患者在苏格兰树上发生了位置迁移,主要向表示更高风险的右下角移动,提示代谢控制恶化、肝损伤和心脏病风险增加。在中国树模型中,6.45%的患者显示出显著的位置变化。表型迁移分析揭示,代谢指标的动态变化是驱动患者在分支间移动的主要因素,迁入高风险分支(特别是分支6)的患者其糖尿病相关并发症负担显著增加。
基于网络的风险可视化工具
为促进临床转化应用,团队开发了在线可视化工具,临床医生可输入新诊断患者的10个基线特征,即可将其映射到中国糖尿病树上,并预估10年内各种并发症的发病风险。这一工具有助于实现个体化风险分层和精准预防策略。
研究结论与讨论部分强调,2型糖尿病的表型异质性具有明显的种族特异性,直接应用基于欧洲人群的模型可能不适用于中国患者。中国树模型不仅揭示了人群特有的并发症风险模式,如糖尿病视网膜病变与高HDL-C、肝功能的独特关联,还通过动态表型迁移分析展现了疾病进展轨迹。值得注意的是,中国人群中高HDL-C水平与糖尿病视网膜病变风险增加相关,这一看似矛盾的现象可能与HDL-C功能障碍有关,特别是在肝病背景下HDL-C颗粒可能发生功能改变。
与传统的k均值聚类方法相比,DDRTree算法提供的连续树状结构能更好地捕捉疾病进展的复杂性,保留亚型间的过渡状态。研究的数据驱动特征选择方法减少了主观偏差,提高了模型的生物学相关性和统计稳健性。
这项研究的重大意义在于首次构建了中国人群特异的2型糖尿病表型架构,为精准糖尿病学提供了重要工具。随着进一步整合遗传数据和前瞻性验证,这种人群特异性模型有望指导个体化治疗策略,改善中国2型糖尿病患者的临床预后。研究成果凸显了开发种族特异性糖尿病分型工具的必要性,为全球精准医学实践提供了重要借鉴。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号