提升电子健康记录研究准确性:基于ICD编码算法精准识别肝细胞癌的创新策略

【字体: 时间:2025年10月03日 来源:BMC Research Notes 1.7

编辑推荐:

  为解决电子健康记录(EHR)中ICD编码识别肝细胞癌(HCC)准确率低的问题,研究人员开发了一种基于ICD-9-CM/ICD-10-CM编码组合算法。该算法要求HCC编码出现≥10次且超过非HCC恶性肿瘤编码总数,使阳性预测值(PPV)达97.4%、F-score达0.92,显著提升HCC识别的精确度与准确性,为利用EHR开展肝癌流行病学研究提供可靠方法学基础。

  
肝细胞癌(HCC)作为成人中最常见的原发性肝癌类型,在美国癌症死亡原因中高居第六位。其流行病学特征在不同种族、性别和年龄群体中呈现显著差异,而治疗结局又高度依赖于患者特征、肿瘤生物学行为及治疗方案选择。目前大多数人群水平的HCC流行病学数据来源于美国国家癌症研究所的监测流行病学与最终结果(SEER)数据库或退伍军人事务部(VA)管理系统,但这些数据源存在明显局限性——SEER缺乏治疗相关因素的详细记录,VA数据则因研究对象局限于退伍军人群体而代表性受限。
随着电子健康记录(EHR)系统在大型医疗机构的普及,这些包含纵向诊疗信息的数据库为开展HCC研究提供了新的机遇。然而,如何准确从海量EHR数据中识别真正的HCC患者成为关键挑战。国际疾病分类(ICD)编码作为EHR中最常用的疾病标识工具,其诊断准确性直接影响到研究结果的可靠性。尽管先前研究表明在VA系统中使用单一ICD编码识别HCC可获得86%的阳性预测值(PPV),但学术医疗中心环境下的编码准确性,特别是在ICD-10-CM编码系统实施后的性能表现,尚未得到充分验证。
在这项发表于《BMC Research Notes》的研究中,Carrie R.Wong团队深入评估了ICD-9-CM和ICD-10-CM编码在大型学术医疗系统中识别HCC患者的性能,并开发了一种能够显著提升识别准确性的算法策略。
研究方法上,研究团队利用UCLA Health系统的EHR数据,构建了2006-2022年间26,439名建立门诊关系的慢性肝病患者队列。通过至少1次HCC编码(ICD-9-CM 155.0或ICD-10-CM C22.0)筛选出1,007名潜在HCC患者。采用结构化数据提取表由三位医师进行盲法图表审查(金标准),并通过随机重复样本验证评估者间一致性(72%)。基于开发样本的图表审查结果,研究人员构建了四种算法迭代:算法1仅基于HCC编码出现频率;算法2排除常见误编码的非HCC恶性肿瘤;算法3结合算法1最佳迭代与各非HCC恶性肿瘤排除条件;算法4要求HCC编码总和超过非HCC恶性肿瘤编码总和。最终选择PPV、F-score和准确性最高的算法进行内部验证。
研究结果显示,单一HCC编码条目在开发样本(n=300)中表现不佳,58%为假阳性病例(非真实HCC病例)。假阳性中最常见的误诊情况包括:非HCC恶性肿瘤(36.8%,以胆管癌、转移性结直肠癌和神经内分泌肿瘤为主)、慢性肝病或其它恶性肿瘤的HCC监测患者(32.1%)以及良性肝脏病变(18.4%)。
算法性能测试表明,随着HCC编码出现频率增加,所有性能指标均持续改善,在≥10次HCC编码时达到拐点。最佳表现算法(算法4迭代)要求至少10次HCC编码条目且HCC编码总和超过非HCC恶性肿瘤(继发性恶性肿瘤、胆管癌、胰腺癌、结直肠癌、神经内分泌肿瘤)编码总和,在开发样本中展现出优异性能:PPV 97.4%、F-score 0.92、准确性94%。使用癌症登记处数据作为金标准的敏感性分析显示类似性能(PPV 94.3%、F-score 0.93、准确性94.4%)。内部验证结果证实了算法的稳健性(PPV 92.3%、F-score 0.90、准确性91%)。
讨论与结论部分强调,与VA系统研究结果不同,单一ICD编码在学术医疗中心环境中识别HCC的性能较差(42%准确性),这可能与不同编码实践和患者群体特征有关。学术医疗中心作为专科诊疗转诊中心,接收更多专门癌症治疗患者和可疑肝脏病变评估咨询,增加了误编码可能性。研究开发的算法通过结合HCC编码频率和与非HCC恶性肿瘤编码的对比,成功将HCC识别准确性提升至90%以上。
该研究的实际意义在于为利用EHR数据开展HCC流行病学和治疗结局研究提供了经过验证的方法学工具。随着HCC新疗法的不断涌现和人工智能技术在EHR数据分析中的应用日益广泛,获取准确、精确且有效的HCC患者识别方法对于生成人群水平的治疗接受率和反应率估计、比较不同治疗效果以及评估患者特征差异对治疗选择和结局的影响至关重要。研究人员建议未来利用EHR数据开展HCC相关研究前,应首先验证ICD编码对于HCC诊断的准确性和精确性,以确保研究结果的可靠性。
研究同时指出了若干局限性:UCLA Health作为三级医疗中心,HCC患病率较高可能高估算法PPV;人工图表审查可能存在误差;慢性肝病ICD编码本身可能存在误分类;单中心开发限制了算法普遍适用性。未来研究方向包括在其它学术和非学术环境中进行外部验证,以及考虑仅使用与提供者临床 encounter 明确关联的ICD编码以进一步提升准确性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号