
-
生物通官微
陪你抓住生命科技
跳动的脉搏
电子健康记录联动与文本挖掘技术校正银屑病关节炎误分类及患病率估计研究
【字体: 大 中 小 】 时间:2025年09月18日 来源:American Journal of Epidemiology 4.8
编辑推荐:
本刊推荐:为解决初级诊疗电子健康记录(EHR)中疾病编码误分类导致的患病率估计偏差问题,研究人员开展了一项联动初级与二级诊疗EHR数据的观察性研究。通过文本挖掘技术提取风湿科门诊信件中的银屑病关节炎(PsA)诊断信息作为金标准,发现初级诊疗编码存在高达51%的假阴性率,校正后患病率从0.13%上升至0.25%。该研究揭示了联动多源医疗数据与自然语言处理技术在提升流行病学研究准确性方面的重要价值。
在当今大数据驱动的医学研究时代,电子健康记录(EHR)已成为流行病学研究的宝贵资源。特别是初级诊疗EHR数据库,如英国临床实践研究数据链(CPRD),被广泛用于疾病流行趋势分析和健康政策制定。然而,这些数据的可靠性完全依赖于临床实践中疾病编码的准确性和完整性,这就带来了一个关键挑战:如何确保通过代码列表识别出的病例真正反映了疾病在人群中的真实分布?
问题的核心在于疾病误分类(misclassification)。现有验证方法通常只能识别假阳性病例(即被错误标记为患病的个体),而要发现假阴性病例(即实际患病但未被编码的个体)则如同"大海捞针"。这种情况在英国二级诊疗系统中尤为突出,因为医院门诊的诊断信息被锁在非结构化的门诊信件自由文本中,无法通过国家标准数据集获取。虽然住院患者数据可通过医院事件统计(HES)获取,但门诊患者的诊断信息却成为了缺失的关键拼图。
在此背景下,曼彻斯特大学的研究团队开展了一项创新性研究,通过联动初级诊疗EHR与经文本挖掘处理的二级诊疗门诊信件,以银屑病关节炎(PsA)为例探索疾病误分类的程度及其对患病率估计的影响。这项研究发表在《American Journal of Epidemiology》上,为改善基于常规收集健康数据的研究质量提供了重要方法论见解。
研究人员采用了几项关键技术方法:首先从英国西北地区53家初级诊疗机构获取了186,286名成年患者的去识别化EHR数据;其次收集了同一地区医院风湿科门诊信件,使用MedCAT软件进行自然语言处理,将半结构化诊断信息映射至系统化医学命名法-临床术语(SNOMED CT);随后通过预设的PsA代码列表识别病例,并由风湿病学专家进行人工验证;最后将初级诊疗与二级诊疗数据进行患者层级联动,建立2×2列联表进行分析。研究还采用定量偏倚分析方法和经典统计学公式,基于敏感性和特异性指标对总体患病率进行校正。
研究结果揭示了令人惊讶的发现。在初级诊疗队列中识别出245例PsA患者,得出观察患病率为0.13%(95%CI 0.11%-0.15%)。而在联动子人群(7,532名同时有初级诊疗记录和医院风湿科就诊记录的患者)中,分析显示初级诊疗代码列表的敏感性仅为48.95%,特异性为99.80%。这意味着超过一半(51%)的真实PsA病例在初级诊疗数据中被遗漏,造成了显著的患病率低估。
通过手动审查不一致病例,研究人员深入探索了误分类的原因。假阳性病例(初级诊疗编码为PsA但医院记录未确认)主要是由于编码错误或文本挖掘算法漏诊所致。而假阴性病例(医院确诊但初级诊疗无编码)中,尽管40%为"可能"或"疑似"诊断,但60%为明确诊断的病例,表明编码遗漏是主要原因。值得注意的是,假阴性病例与真阳性病例在年龄和性别分布上几乎相同,排除了人口学因素导致的偏差。
基于这些发现,研究人员使用敏感性和特异性数据对总体患病率进行校正。直接应用联动子人群的特异性数据会产生负的校正患病率,这在流行病学上是不合理的。因此,他们采用了极值分析方法:假设所有未验证阳性病例均为假阳性时,校正患病率为0.21%(95%CI 0.17%-0.24%);假设所有未验证阳性病例均为真阳性时,校正患病率为0.25%(95%CI 0.21%-0.28%)。这一结果比单纯依赖初级诊疗数据的估计值提高了近两倍。
研究的讨论部分强调了多项重要启示。首先,这项研究证实了单靠初级诊疗数据会严重低估PsA等慢性疾病的真实患病率,这与Herrett等人在心肌梗死研究中的发现一致。其次,研究展示了文本挖掘和技术在处理非结构化医疗数据方面的巨大潜力,为解决英国门诊诊断信息缺失问题提供了可行方案。此外,研究方法学上的创新——特别是对假阴性的量化——为未来类似研究提供了重要参考。
然而,研究也存在一些局限性。无法访问完整的初级诊疗记录限制了对误分类原因的深入探索;部分患者可能在其他地区医院就诊,导致病例确认不完全;诊断确定性谱(从明确到疑似)的处理虽然符合临床实际,但可能影响病例定义的精确性。
从更广阔的视角看,这项研究对健康数据研究的未来发展具有重要启示。随着英国"数据用于研发计划"等国家级项目的推进,建立遵循"五安全原则"的安全数据环境,实现多模态医疗数据的无缝联动,将极大提升医学研究的准确性和效率。医院企业级EHR系统的推广也将改善门诊实时临床编码质量。最终,共享诊疗记录的实现将消除事后数据联动的障碍,为真实世界研究提供更高质量的数据基础。
总之,这项研究通过银屑病关节炎的具体案例,令人信服地展示了联动初级与二级诊疗电子健康记录并结合文本挖掘技术在纠正疾病误分类方面的重要价值。研究不仅提供了更准确的患病率估计,更重要的是为基于常规收集健康数据的研究建立了一套验证和校正的方法学框架。随着医疗数字化进程的加速和数据分析技术的进步,这类研究方法将在提高流行病学研究的准确性和可靠性方面发挥越来越重要的作用,最终为公共卫生决策和患者护理提供更坚实的科学依据。
生物通微信公众号
知名企业招聘