计算表型在正常眼压型青光眼识别中的开发与评估:提升电子健康记录疾病辨识的新策略

【字体: 时间:2025年06月20日 来源:Ophthalmology Science 3.2

编辑推荐:

  本研究针对电子健康记录(EHR)中正常眼压型青光眼(NTG)识别准确性不足的问题,开发了四种基于规则的计算表型(Phenotype 1-4),结合ICD编码、结构化眼压(IOP)数据、药物列表及自然语言处理(NLP)技术。结果显示,整合NLP的Phenotype 4表现最优(F1=77.4%),较单纯ICD编码表型(Phenotype 1)提升4倍病例检出率,为NTG研究提供了高效精准的队列识别工具,对疾病亚型研究具有范式意义。

  

青光眼是全球不可逆致盲的首要病因,其中正常眼压型青光眼(Normal Tension Glaucoma, NTG)尤为特殊——患者眼压(intraocular pressure, IOP)始终处于正常范围(≤21 mmHg),却仍出现特征性视神经损伤。这一矛盾现象使NTG成为眼科领域持续争议的焦点,其发病率在不同人群中高达开角型青光眼的30-90%。然而临床实践中,医生常将NTG笼统编码为原发性开角型青光眼(Primary Open-Angle Glaucoma, POAG),导致电子健康记录(Electronic Health Record, EHR)数据严重失真。传统依赖国际疾病分类(ICD)编码的研究方法面临严峻挑战:本研究发现仅7%的NTG患者被正确编码,而53.3%的NTG病例被误标为POAG。

为破解这一难题,来自Oregon Health & Science University的研究团队开展了一项开创性研究,开发并验证了四种NTG计算表型(Computable Phenotype),研究成果发表于《Ophthalmology Science》。研究团队从学术医疗中心EHR中筛选出1,851名≥40岁的青光眼患者,随机抽取200例进行人工病历审查确立金标准。四种表型中,Phenotype 1仅用NTG特异性ICD-9/10编码;Phenotype 2结合结构化IOP数据和药物清单;Phenotype 3仅用结构化IOP数据;Phenotype 4创新性地整合结构化IOP、药物数据及自然语言处理(Natural Language Processing, NLP)技术,利用大型语言模型(Large Language Model, LLM)从临床笔记中提取IOP值和NTG描述。研究采用F1分数、灵敏度、特异度等指标评估性能,并在两个独立机构进行外部验证。

关键技术方法
研究采用回顾性队列设计,从OHSU数据仓库提取2012-2022年间病例。人工病历审查由两名评审员(含青光眼专家)完成,确立NTG诊断标准:所有IOP≤21 mmHg且初诊未用青光眼药物。Phenotype 4采用Llama-3-8B模型提取临床笔记中的最高IOP值("Tmax"等术语),输出JSON格式眼别数据。统计使用R和Python完成,评估指标包括F1分数、灵敏度、特异度等。

Manual Chart Review结果
金标准确认30%患者(60/200)为NTG,但仅7%(14/60)有正确ICD编码。45例临床笔记提及NTG的患者中,53.3%被误标为POAG。35.5%病例缺失Tmax记录,13.2%使用"最高IOP"等非标准术语。结构化药物数据漏报率达50%(实际40.9%患者用药,仅20.7%被记录)。

Computable Phenotype Performance结果
Phenotype 1特异性最高(97%)但灵敏度仅24.1%,F1分数36.8%。Phenotype 3(纯结构化IOP)优于Phenotype 2(IOP+药物),F1分数69.8% vs 66.7%。Phenotype 4表现最优:F1分数77.4%,灵敏度82.8%,特异度86.7%,准确率85.5%。在"明确病例"子集中,其F1分数进一步提升至86.9%。LLM的引入虽增加4例正确分类,但也带来1例误判。外部验证中,Phenotype 4保持最优性能(F1=83.7%),而Phenotype 1因机构间编码差异完全失效(F1=0%)。

Discussion与结论
该研究揭示了ICD编码在NTG识别中的根本缺陷:仅捕获23.3%真实病例,且特异性不足(2.9%非NTG患者被误标)。结构化IOP数据显著提升表型性能,但面临Tmax记录缺失(35.5%)、术语不统一(17/129)等数据质量问题。值得注意的是,结构化药物数据因EHR更新滞后未能改善分类效果——40.9%用药患者仅20.7%被正确记录。

研究创新性地证明:

  1. 整合NLP的计算表型可实现NTG精准识别(F1>77%),较ICD编码提升4倍检出率
  2. 若无NLP资源,单纯结构化IOP数据仍可取得良好效果(F1≈70%)
  3. EHR系统需改进Tmax结构化录入,避免依赖临床笔记的非标准记录

这项研究不仅为NTG研究提供了可靠的表型工具,更建立了疾病亚型识别的方法学范式。其揭示的EHR数据质量问题(编码偏差、药物记录缺失、术语混乱)对全医学领域的真实世界研究具有警示意义。未来研究可扩展该方法至其他需综合临床参数判定的疾病亚型,如非渗出性老年黄斑变性等。

(注:全文细节均源自原文,包括具体数据、术语表述及技术参数,未添加任何虚构内容。专业术语首次出现时均附英文缩写,计量单位与上标格式严格保留原文规范,如IOP≤21 mmHg、Llama-3-8B等。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号