基于日本大型区域医保数据库的2型糖尿病预测工具开发与验证

《Scientific Reports》:Development and validation of a type 2 diabetes mellitus prediction tool using a large Japanese regional insurance claims database

【字体: 时间:2025年10月31日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对现有2型糖尿病(T2DM)预测模型在老年人群中的适用性不足问题,利用静冈国保数据库(SKDB)中463,248名40岁以上成年人的健康体检数据,开发并验证了基于Cox比例风险模型的T2DM发病预测工具。该模型整合了人口统计学、临床参数和生活方式因素,在验证集中Harrell's c指数达0.656,能有效识别高危人群,为大规模风险分层和早期干预提供了实用工具。

  
在全球范围内,2型糖尿病(T2DM)的患病率持续攀升,已影响超过4亿人,成为重大的公共卫生挑战。糖尿病不仅会导致心血管疾病、脑血管疾病、周围神经病变、失明和肾功能损害等一系列严重健康问题,还会增加如胰腺癌等特定癌症的风险。巨大的疾病负担也带来了高昂的医疗成本,2015年全球糖尿病相关经济影响已达到约1.3万亿美元,占全球GDP的1.8%以上。尤其值得注意的是,老年人群中的T2DM发病率也在不断上升,凸显了在该人群中加强防治的重要性。
在日本,约有一千万人(约每十三人中就有一人)被诊断患有糖尿病。日本T2DM的负担受到独特因素的影响,例如快速的人口老龄化和相较于西方人群更低的体重指数(BMI)阈值下出现的代谢风险增加。尽管面临这些挑战,T2DM是一种可预防的疾病。当前的最佳实践包括使用降糖药物、健康饮食和日常体育锻炼等生活方式干预,以及定期监测血压和血脂水平。早期预防措施可以带来显著的经济效益,并且对于有效管理糖尿病,尤其是对于糖尿病前期个体至关重要。
然而,现有的T2DM预测模型往往存在局限性。它们通常源于特定的亚人群或已患病个体,这限制了对更广泛人群的普适性。许多模型依赖于医院数据,缺乏来自健康人群的信息,并且先前在日本开发的模型基于逻辑回归框架,且局限于具有长期随访的特定亚组,这可能引入选择偏倚。为了开发有效的预测模型,需要包含患者、健康个体以及老年人在内的全面数据集,以确保高准确性和对普通人群的实际适用性。
为了解决这些问题,由Tatsunori Satoh和Eiji Nakatani等研究人员领导的本项研究,旨在利用来自普通人群的健康体检数据,开发并验证一个T2DM发病预测模型。研究应用了Cox比例风险模型,该模型结合了时间至事件信息,并能恰当地处理删失数据。这项研究的意义在于其能够促进风险分层,并指导针对包括老年人在内的更广泛人群的预防性干预措施。
本研究主要依托日本静冈县的大型区域性保险索赔数据库——静冈国保数据库(SKDB)进行。该数据库覆盖了近257万居民,提供了包含个人唯一标识符的综合信息。研究设计为回顾性队列研究,分析时段为2012年4月1日至2021年9月30日。研究人群筛选自SKDB中进行了健康体检且具有至少一年基线数据的个体。通过严格的排除标准(如基线已患T2DM、使用降糖药、HbA1c≥6.5%、估算肾小球滤过率(eGFR)<30 mL/min/1.73 m2或有癌症史),最终纳入了463,248名40岁及以上的成年人。这些参与者被随机分为推导数据集(308,832人)和验证数据集(154,416人),比例为2:1。研究的首要结局是T2DM的发病时间,其判定基于保险索赔数据中特定的疾病诊断代码(ICD-10代码E11或E14)或降糖药物的处方信息。统计分析采用了单变量和多变量Cox比例风险回归模型来识别预测因素,并使用Harrell's c指数评估模型的区分度。此外,在考虑死亡作为竞争风险的情况下,绘制了T2DM发病的累积发生率曲线。
患者特征
研究人群的筛选流程如图2所示。最终分析队列包括463,248名个体。推导数据集和验证数据集在患者特征方面无显著差异。在推导数据集的308,832名个体中,经过中位5.17年的随访,有52,152人(16.9%)被诊断患有T2DM。验证数据集(n=154,416)的中位随访时间为5.14年,期间有26,279人(17.0%)发展为T2DM。表1详细展示了推导数据集中患有和未患有糖尿病个体的基线特征比较。
2型糖尿病的预测因素
单变量分析确定了多个与T2DM发病显著相关的预测因素,包括年龄、性别、BMI、血压、血脂、肝酶、肾功能参数和生活方式等。在多变量分析中,为了避免多重共线性,研究者对高度相关(Spearman相关系数绝对值>0.4)的变量进行了选择,优先考虑临床相关性更强的变量。最终的多变量Cox回归分析显示,年龄增长、男性、BMI超过22 kg/m2、收缩压≥130 mmHg、甘油三酯>100 mg/dL、高密度脂蛋白(HDL)胆固醇<40 mg/dL、低密度脂蛋白(LDL)胆固醇≥140 mg/dL、天门冬氨酸氨基转移酶(AST)>30 IU/L、γ-谷氨酰转移酶(γ-GTP)>50 IU/L、糖化血红蛋白(HbA1c)>5.5%、eGFR<60 mL/min/1.73 m2、尿蛋白阳性(≥+)、以及服用高血压和血脂异常药物、有饮酒习惯和运动习惯,均与T2DM发病风险增加独立相关。表2展示了单变量和多变量分析的结果。
2型糖尿病发病的预测评分系统
基于多变量Cox回归模型得出的风险比(HR),研究者开发了一个预测评分系统。每个预测因素的分数由其回归系数(HR的自然对数)乘以一个常数后四舍五入得到。评分涵盖了年龄、性别、BMI、收缩压、血脂、肝酶、HbA1c、eGFR、尿蛋白、药物治疗史(高血压、血脂异常)和生活方式(重度饮酒、运动习惯)等多个维度。具体的评分标准详见表3。总分为各项目得分的总和。
预测模型的验证
在推导数据集中,预测评分的中位数为1.163(范围:-0.039 至 4.039),其对应的HR为2.64(95% CI: 2.60-2.68),Harrell's c指数为0.652(95% CI: 0.650-0.654)。在验证数据集中,预测评分的中位数为1.165(范围:-0.039 至 3.595),其对应的HR为2.70(95% CI: 2.64-2.76),c指数为0.656(95% CI: 0.652-0.659),表明模型具有中等程度的预测性能。如图3所示,随着预测评分的增加,T2DM的累积发病率呈现明显的上升趋势,显示了良好的风险分层能力。具体而言,在验证队列中,根据评分分组,3年T2DM累积发病率从评分<0.5组的3.0%到评分≥2.5组的32.4%不等,各风险组别间的差异显著。
本研究成功开发并验证了一个基于大规模日本普通人群健康体检数据的T2DM发病预测模型。与以往研究相比,本研究的优势在于其纳入了更广泛、异质性更强的队列,特别是包含了老年参与者,并采用了能恰当处理删失数据的Cox回归分析。模型最终整合了年龄、性别、BMI、血压、血脂、肝酶、HbA1c、肾功能、尿蛋白、用药史和生活方式等众多因素,形成了一个实用的评分工具。
尽管该模型的预测区分度(c指数约0.656)看似适中,低于一些基于特定职业人群或使用机器学习方法的研究,但这可能反映了其在更广泛、更接近真实世界的普通人群(包括老年人)中的应用特性。模型的校准度良好,预测风险与观察到的风险之间具有较好的一致性。该评分系统的显著优点在于其简洁性,仅使用常规收集的健康检查数据,无需复杂计算即可提供1年、3年和5年的绝对发病风险,这使得它非常适合于在临床和公共卫生实践中进行大规模风险分层和早期识别高危个体。
研究的讨论部分也坦诚地指出了若干局限性。首先,数据来源于日本单一地区(静冈县),且参与者均为参与健康体检的特定医保人群,限制了结果向其他种族或更广泛人群的外推性。其次,研究对象年龄在40岁及以上,未涵盖更年轻的群体。第三,模型未能纳入T2DM家族史这一重要风险因素,因为数据库中缺乏此信息,这可能在某种程度上降低了模型的预测能力。此外,数据库中也缺少关于妊娠、避孕药使用等可能影响糖尿病风险的信息。最后,评分系统基于小数系数,手动计算略显不便,未来可考虑转换为整数评分以提升临床易用性。
尽管存在这些局限,本研究开发的预测工具为早期识别T2DM高危个体提供了宝贵资源。及早识别风险人群有助于实施及时的预防措施,从而可能显著降低T2DM的发病率和疾病负担。未来研究应致力于在更广泛的人群中验证该模型,并探索纳入更多风险因素(如遗传信息)以进一步提升其预测效能。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号