
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习与电子健康记录的哮喘表型智能识别及精准预测研究
【字体: 大 中 小 】 时间:2025年06月06日 来源:Journal of Allergy and Clinical Immunology: Global
编辑推荐:
本研究通过机器学习技术分析电子健康记录(EHR),成功识别并预测真实世界中的重症哮喘(SA)表型。研究人员利用主成分分析(PCA)和高斯混合模型对31,795例哮喘患者数据进行聚类,构建了精准度达92%的随机森林预测模型,发现5种具有显著临床差异的哮喘表型,其中SC3表型被确认为高炎症性SA表型,为生物靶向治疗提供重要依据。该研究为哮喘精准管理开辟了新途径。
哮喘作为一种高度异质性疾病,其临床表现和治疗反应存在显著差异。尽管全球有超过3亿哮喘患者,但其中5%-10%的重症哮喘(SA)患者却消耗了超过50%的医疗资源,年治疗费用高达820亿美元。传统上,医生主要依靠症状和用药情况判断疾病严重程度,但这种方法存在明显局限性:一方面,部分控制良好的SA患者可能被误分类为轻中度哮喘;另一方面,不同炎症表型对生物靶向治疗(mAb)的反应差异显著,但临床实践中缺乏客观、高效的识别工具。
针对这一临床难题,来自Scripps Health系统的研究团队开展了一项创新性研究。他们利用机器学习技术挖掘电子健康记录(EHR)中的多维数据,建立了能够自动识别和预测哮喘表型的智能系统。这项发表在《Journal of Allergy and Clinical Immunology: Global》的研究,为哮喘精准医疗提供了重要技术支撑。
研究团队首先从医疗系统中提取了31,795例哮喘患者的EHR数据,经过严格筛选后纳入1,112例符合标准的患者。关键技术方法包括:(1)采用主成分分析(PCA)降维提取关键特征;(2)使用高斯混合模型进行无监督聚类;(3)构建基于美国胸科学会(ATS)指南的决策树模型;(4)开发整合临床特征的随机森林预测模型;(5)通过SMOTE算法处理数据不平衡问题。所有分析均使用Python的scikit-learn库完成。
研究结果部分揭示了多项重要发现:
背景与目的
研究证实哮喘存在显著的临床异质性,传统ICD-10诊断代码与患者实际病情存在差异。团队旨在开发基于EHR的机器学习模型,实现SA表型的客观识别。
方法学创新
通过比较两种预测模型,发现整合多维特征的随机森林模型(精度92%,准确率85%)显著优于单纯基于ATS指南的决策树模型(精度60%)。PCA分析提取出三大关键维度:肺功能(PC1)、血液炎症标志物(PC2)和全身糖皮质激素使用(PC3)。
表型特征解析
高斯混合模型识别出5个显著差异的哮喘亚群(SCs):
临床转化价值
随机森林模型预测SC3中57%为SA,是最可能受益于生物治疗的群体。SC2虽然SA预测率为39%,但其FEV1
/FVC比值最低(66%)且炎症标志物突出,是mAb治疗的理想候选。
讨论与结论部分指出,该研究首次实现了真实世界哮喘表型的自动化识别系统。相较于传统诊断方法,机器学习模型能更准确捕捉临床特征与疾病严重程度的复杂关系。特别值得注意的是,SC2表型的高嗜酸粒细胞与低肺功能的相关性,为靶向IL-5/IL-5R通路治疗提供了理论依据;而SC3表型的高OCS需求提示可能需要考虑非典型哮喘机制。
这项研究的临床意义在于:(1)建立了可整合到EHR系统的表型识别工具,辅助临床决策;(2)明确了不同表型对生物治疗的潜在反应差异;(3)为资源优化配置提供了数据支持。未来可通过前瞻性研究验证这些表型对特定治疗的响应性,并探索更多生物标志物以完善分类系统。该技术框架也可拓展应用于其他慢性疾病的精准管理。
生物通微信公众号
知名企业招聘