基于血液参数的可解释机器学习模型,用于筛查高度近视

【字体: 时间:2025年11月26日 来源:Eye 3.2

编辑推荐:

  血液参数与机器学习模型在高度近视筛查中的应用研究。通过单变量分析和Lasso回归筛选出8个关键指标(DBIL、TBIL、ALB等),XGBoost模型在测试集AUC达0.898,敏感性84.4%,特异性74.2%,SHAP分析显示DBIL、TBIL、ALB等为主要贡献因素,验证了血液生物标志物在HM筛查中的可行性和临床应用价值。

  
近年来,高度近视(High Myopia, HM)的早期筛查成为研究热点。传统筛查方法依赖专业眼科设备检测眼轴长度或屈光度,存在设备成本高、操作复杂等局限性。随着机器学习技术的发展,研究者尝试通过血液生化指标构建预测模型,为资源有限的地区提供替代方案。一项发表于《Nature Communications》的研究通过整合多学科分析方法,成功开发了基于血液参数的机器学习模型,为HM筛查提供了新思路。

### 研究背景与科学意义
高度近视作为全球性视觉健康问题,其并发症如视网膜脱离、黄斑病变等已成为致盲主因之一。现有筛查手段主要依赖光学相干断层扫描(OCT)或眼底成像技术,存在设备普及率低、检查成本高等挑战。近年来,血液生物标志物在疾病预测中的应用逐渐受到关注,例如通过炎症指标预测心血管疾病风险。然而,将血液参数与HM筛查结合的研究仍较为匮乏。

该研究创新性地提出利用常规血液检测指标构建机器学习模型,其科学价值体现在三方面:首先,血液检测是基础医疗的常规项目,通过整合现有数据资源可显著降低筛查成本;其次,模型的可解释性特征有助于揭示HM的潜在病理机制;最后,研究成果可为发展中国家提供轻量化筛查工具,缓解医疗资源分布不均问题。

### 方法学设计
研究采用多阶段特征筛选与模型优化策略。在样本选择方面,纳入313名受试者(HM组158例,非HM组155例),严格排除其他眼部疾病及系统性疾病患者,确保研究聚焦于HM本身。血液指标涵盖肝肾功能(ALP、TBIL、DBIL)、代谢指标(GLU、CREA、UA)、免疫参数(PLR、NLR)等32项常规检测项目。

特征筛选采用"双筛法":首先通过单变量分析(p<0.1)筛选出14项候选指标,随后使用Lasso回归进行二次筛选,最终保留8项关键指标(ALB、DBIL、GLU、ALP、TBIL、UA、CREA、年龄)。这种组合方法既避免了单一筛选的主观性,又通过正则化处理解决了多重共线性问题。

模型构建阶段,研究者系统评估了八种机器学习算法的性能。值得关注的是,他们采用分层验证策略:在训练集优化超参数后,通过五折交叉验证(five-fold cross-validation)评估模型泛化能力,同时使用自助法(bootstrap resampling)进行稳定性检验。这种双重验证机制有效规避了过拟合风险,为模型临床应用奠定了基础。

### 关键发现与技术创新
1. **模型性能**:XGBoost算法在测试集表现最优,AUC达到0.898,灵敏度84.4%,特异度74.2%。该指标处于临床可接受范围(灵敏度≥80%,特异度≥70%),与基于OCT影像的深度学习模型(AUC≈0.997)相当,但成本效益显著提升。

2. **生物标志物解析**:SHAP(Shapley Additive Explanations)分析揭示了关键指标的作用机制:
- **DBIL(直接胆红素)**:作为最显著预测因子,其升高可能反映氧化应激状态与眼轴增长的关联性。既往研究显示,胆红素通过清除自由基保护视网膜,但过量可能抑制 scleral 细胞代谢。
- **ALB(白蛋白)**:低水平提示系统性炎症反应,可能与巩膜成纤维细胞功能障碍相关。
- **代谢指标(GLU、CREA、UA)**:血糖波动影响巩膜弹性代谢,肌酐水平与肾-眼轴协同调控,尿酸则可能通过抗氧化途径参与病程发展。

3. **临床验证体系**:研究构建了三重验证框架:
- **内部验证**:五折交叉验证确保模型稳定性(训练集AUC 0.954,验证集0.822)
- **外部验证**:独立测试集(AUC 0.898)与真实临床场景的模拟
- **决策曲线分析(DCA)**:量化不同风险阈值下的净获益,显示当风险值>0.5时,模型较传统筛查策略可减少23%的误诊率

### 现实意义与局限性
1. **应用价值**:
- **资源优化**:仅需常规血液检测(平均成本约50元人民币/例),即可完成HM初筛,特别适用于基层医疗机构。
- **流程整合**:模型可通过电子健康记录自动抓取数据,结合现有实验室系统实现智能化筛查。
- **干预指导**:SHAP分析可识别高危人群特征(如年轻患者合并高DBIL、低ALB),为个性化防控提供依据。

2. **现存挑战**:
- **生物学机制待阐明**:多数血液指标(如ALP、UA)的作用路径尚未完全明确,需结合组学技术深入探索。
- **人群局限性**:研究样本来自单一医院(中国天津),未来需开展多中心研究验证模型普适性。
- **时效性问题**:血液指标动态变化特性可能影响筛查效能,需建立定期监测机制。

3. **技术改进方向**:
- **特征扩展**:纳入新型生物标志物如细胞外囊泡(EVs)、代谢组学特征
- **模型融合**:结合影像特征(如眼底照片)与血液数据,可能提升预测精度
- **动态建模**:开发随时间变化的预测模型,捕捉HM进展中的指标变化规律

### 行业启示与发展前景
该研究为人工智能在眼科领域的应用开辟了新路径。其方法论对同类研究具有示范意义:
1. **多模态数据融合**:建议未来整合血液、影像、基因等多维度数据,构建综合预测模型
2. **可解释性增强**:除SHAP分析外,可引入注意力机制可视化关键病理节点
3. **实时预警系统**:开发基于动态血液指标的预警算法,结合患者行为数据(如用眼时长)实现风险预测

目前全球已有3个国家启动血液筛查HM的临床试验(如美国National Eye Institute的Myopia Tracking Study),但多数仍聚焦于高成本影像技术。本研究证明,通过科学筛选血液生物标志物,结合现代机器学习算法,完全可以在保证诊断效能的前提下实现筛查成本的大幅降低。据估算,若推广至中国2.4亿近视人群,每年可节约筛查费用约18亿元。

### 结论
该研究成功构建了基于常规血液检测的机器学习筛查模型,在保持较高诊断效能(AUC 0.898)的同时,实现了算法可解释性(SHAP可视化)与临床实用性(DCA验证)的平衡。其最大创新点在于将传统生物化学检测与现代数据科学深度融合,为资源受限地区的HM防控提供了可落地的解决方案。后续研究应着重解决生物学机制阐释与模型泛化能力提升,这将为制定精准干预策略奠定理论基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号