开发一种人工智能算法,用于在电子健康记录中早期识别代谢性肥胖综合征(MASLD)

《Hepatology Communications》:Development of an AI algorithm for early identification of MASLD in the electronic health record

【字体: 时间:2025年12月12日 来源:Hepatology Communications 4.6

编辑推荐:

  代谢性肝脂肪变性(MASLD)早期诊断率低,本研究开发基于自然语言处理(NLP)和SQL的AI算法,通过电子健康记录(EHR)检索影像学 steatosis 报告及代谢指标,经4次迭代优化后算法PPV达93.4%,NLP识别steatosis的PPV达99.4%。在6个月队列中识别出957例MASLD,但仅14.6%有相关ICD诊断代码,显示临床漏诊严重。研究证实AI工具可有效辅助MASLD筛查,改善早期干预率,并开源算法供医疗机构应用。

  
### 研究背景与意义
代谢功能障碍相关脂肪肝病(Metabolic Dysfunction-Associated Steatotic Liver Disease, MASLD)已成为全球慢性肝病的主要驱动因素。据估计,美国成年人群中MASLD患病率高达31%,其经济负担每年超过1000亿美元,主要源于肝移植和长期疾病管理。尽管MASLD定义为存在代谢异常(如肥胖、糖尿病、血脂异常等)且影像学显示肝脂肪浸润的肝脏疾病,但在临床实践中,这一诊断长期依赖非酒精性脂肪性肝病(NAFLD)的旧标准,导致漏诊和诊断滞后。研究显示,超过66%的晚期肝硬化患者首次确诊MASLD前未接受过任何相关诊断,而初级医疗机构中MASLD漏诊率高达26%-45%。此外,MASLD相关ICD编码的缺失严重制约了基于电子健康记录(EHR)的流行病学研究,影响早期筛查和干预策略的制定。

### 研究方法与技术创新
本研究团队通过自然语言处理(NLP)技术构建了首个针对MASLD的AI算法,其核心创新在于将非结构化临床数据(如影像报告、电子病历文本)转化为结构化诊断依据。具体方法包括:
1. **数据整合**:依托西雅图大学医学中心(UWMC)的Epic系统,整合影像报告(超声、CT、MRI)、实验室数据(血糖、血脂、HDL)及临床文档(如饮酒史记录)。
2. **NLP算法开发**:
- **影像报告解析**:利用正则表达式识别影像学描述中的“脂肪浸润”“肝细胞气球样变”等关键术语,准确率达99.4%。
- **酒精使用排除**:通过双重验证(ICD编码筛查+文本模式识别)排除酒精相关肝病,最终排除率高达95%。
3. **迭代优化机制**:通过4轮人工复核(由两位肝科医师独立验证),逐步调整NLP规则,将算法总阳性预测值(PPV)从初始的82.7%提升至93.4%,同时确保酒精使用排除的阴性预测值(NPV)稳定在94%以上。

### 核心发现与临床启示
1. **诊断漏诊现状**:在2023年12月至2024年5月的6个月观察期中,算法识别出957例MASLD患者,但仅14.6%(140例)有对应ICD编码。这表明传统依赖编码的诊断模式严重低估了MASLD的真实患病率。
2. **人群特征分析**:
- **性别与种族分布**:男性占比43.6%,白人占68.3%,与慢性肝病总体人群特征一致。
- **代谢指标异常**:中位BMI达31.3 kg/m2(肥胖标准),57.1%未进行HCV筛查(低于美国预防服务工作组推荐率),且ICD编码组患者的专科就诊率(55%)显著高于未编码组(25.6%)。
3. **时间延误问题**:26例患者在初次影像发现脂肪肝后3个月以上才获得MASLD诊断,最长延迟达145天。这提示影像科与临床科室的信息孤岛问题亟待解决。

### 技术优势与局限性
1. **技术优势**:
- **非结构化数据处理**:突破传统EHR检索依赖编码的局限,直接解析影像报告和病历文本中的语义信息。
- **动态校准机制**:通过人工复核反馈持续优化NLP规则,例如修正对“少量饮酒”与“重度饮酒”的文本特征差异的识别。
- **跨机构适配性**:采用SQL与Python混合编程,兼容Epic等主流EHR系统,开源代码已实现技术迁移。
2. **局限性**:
- **数据来源限制**:仅覆盖UWMC内部数据,未纳入转诊患者或区域外医疗机构记录。
- **诊断标准简化**:未纳入血压或血脂药物使用标准(因数据抓取难度),未来可扩展为完整AASLD标准。
- **前瞻性不足**:未验证算法在队列管理中的长期效果,需后续跟踪疾病进展。

### 对临床实践与政策制定的影响
1. **筛查流程优化**:建议将影像报告自动解析纳入常规流程,对高风险人群(如BMI≥30、糖尿病前期)实施影像筛查,结合NLP算法实现早期预警。
2. **编码规范改革**:推动ICD编码系统纳入MASLD特异性诊断代码,避免因编码缺失导致的误诊。
3. **专科资源分配**:研究显示,ICD编码组患者的肝胆专科就诊率是未编码组的2.3倍,提示需建立跨科室协作机制,将NLP算法嵌入初级诊疗场景。
4. **预防医学实践**:建议将HCV筛查纳入MASLD管理标准,结合美国预防服务工作组建议(所有成年人至少一次HCV检测),降低肝硬化和肝癌风险。

### 未来研究方向
1. **算法升级**:探索大语言模型(LLM)在复杂文本理解中的应用,提升对罕见描述(如“隐匿性酒精暴露”)的识别能力。
2. **纵向研究**:跟踪算法识别的957例患者,评估早期干预对疾病进展的影响(如糖尿病转化率、肝纤维化风险)。
3. **多中心验证**:计划与3家三甲医院合作,测试算法在不同EHR系统中的泛化能力,目标将PPV提升至95%以上。
4. **政策倡导**:推动将MASLD诊断标准纳入临床路径指南,并建立基于NLP的自动化上报系统。

### 总结
本研究首次系统验证了NLP技术在MASLD诊断中的应用价值,其93.4%的PPV和99.4%的影像识别准确率标志着AI在肝病筛查中的突破性进展。算法成功识别出传统编码漏诊的84.3%患者(140/957),且在排除酒精相关病例时保持94%的可靠性。这些发现不仅为流行病学研究提供了新型数据采集工具,更直接指向临床实践中的三个关键改进方向:**影像报告语义化处理**、**ICD编码标准化**、**跨学科诊疗流程再造**。随着更多医疗机构采用此类AI工具,MASLD的早期识别率和患者管理效率有望实现质的飞跃。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号