
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于电子健康记录的大规模子宫内膜异位症共病分析与患者亚型鉴定揭示疾病异质性
【字体: 大 中 小 】 时间:2025年08月01日 来源:Cell Reports Medicine 10.6
编辑推荐:
本研究通过分析43,000余例子宫内膜异位症患者的电子健康记录(EHR),系统鉴定了数百种显著相关的共病,并在不同医疗系统中验证了这些关联。研究人员采用无监督聚类技术揭示了具有独特共病模式的患者亚群,为理解这一复杂疾病的临床异质性提供了新视角,对个性化诊疗策略开发具有重要指导意义。
子宫内膜异位症是一种困扰全球约10%育龄女性的复杂炎症性疾病,其典型特征是子宫内膜样组织在子宫外的异常生长。这种疾病不仅导致慢性盆腔疼痛、不孕等典型症状,还与多种全身性疾病存在密切联系。然而由于临床表现的高度异质性和诊断金标准(手术确诊)的侵入性,患者平均需要经历7-10年的诊断延迟,期间常被误诊为肠易激综合征等其他疾病。更棘手的是,现有激素疗法和手术治疗存在副作用大、复发率高等问题,而个体化治疗策略的开发又受限于对疾病异质性认识的不足。
针对这一临床困境,加州大学旧金山分校(UCSF)Bakar计算健康科学研究所的Umair Khan等研究人员开展了一项突破性研究。他们创新性地利用覆盖6个医疗中心的电子健康记录(EHR)大数据,对43,000余例子宫内膜异位症患者进行了系统性共病分析和患者亚型鉴定,相关成果发表在《Cell Reports Medicine》期刊。这项研究不仅验证了已知的临床关联,更揭示了此前未被充分认识的疾病亚群特征,为理解子宫内膜异位症的复杂病理机制提供了新视角。
研究团队采用了三大关键技术方法:首先基于OMOP(Observational Medical Outcomes Partnership)通用数据模型整合了UCSF(1988年起)和加州大学健康数据仓库(UCHDW,2012年起)的EHR数据;其次通过倾向评分匹配为每位病例匹配30例对照,并采用超几何检验计算共病关联的比值比(OR);最后运用UMAP降维和Leiden算法对患者进行无监督聚类分析。特别值得注意的是,研究还设置了医疗资源利用匹配对照,以排除就诊频率对结果的干扰。
在"患者特征"部分,研究纳入19,059例UCSF患者和24,453例UCHDW患者,平均年龄分别为52.6岁和46.5岁,种族构成以白种人为主(51.7%-53.9%)。通过严格控制人口统计学变量,确保了研究群体的代表性。
"全条件集关联分析"结果显示,研究在UCSF队列中鉴定出661种显著相关的共病,涵盖几乎所有ICD章节。最具显著性的关联包括子宫腺肌病(OR=181)、盆腔腹膜粘连(OR=51.1)和卵巢囊肿(OR=16)。值得注意的是,偏头痛(OR=4)和维生素D缺乏(OR=3.8)等非典型关联也被确认。这些发现在UCHDW队列中得到高度重复(Pearson r=0.864),302种共病(45%)在两个系统中均显著。
"子宫内膜异位症前条件集分析"聚焦106种先于诊断出现的共病,主要为泌尿生殖系统疾病和肿瘤。卵巢囊肿(OR=6.6)、痛经(OR=8.3)和盆腔疼痛(OR=15.2)等早期症状尤为突出。研究还发现癌症抗原125(CA125)水平升高这一生物标志物的显著关联(OR=17.9)。引人注目的是,高脂血症(OR=0.67)等保护性关联的发现,为他汀类药物在子宫内膜异位症中的潜在治疗作用提供了临床证据。
"聚类分析"部分揭示了患者群体的显著异质性。在UCSF队列中,21个全条件集聚类和31个前诊断条件集聚类被鉴定,包括以自身免疫疾病、妊娠并发症和精神健康问题为特征的亚群。UCHDW队列也识别出类似的26个和41个聚类,其中妊娠相关和癌症相关亚群在两个系统中高度一致。通过构建"诊断演变图谱",研究首次展示了患者从诊断前到诊断后的临床轨迹连续性,特别是高脂血症、精神健康问题和贫血相关亚群的稳定性特征。
在讨论环节,作者强调了三个关键科学发现:一是通过多中心验证确认了子宫内膜异位症与偏头痛、胃食管反流病等疾病的遗传共现基础;二是揭示了诊断编码实践中子宫腺肌病与子宫内膜异位症的潜在混淆问题;三是首次报道了他汀类药物可能产生的保护效应。这些发现不仅为临床实践提供了重要参考——如提示对偏头痛患者进行子宫内膜异位症筛查的必要性,更重要的是建立了EHR大数据解析复杂疾病异质性的方法学范式。
该研究的创新价值主要体现在三个方面:方法学上,建立了医疗资源利用偏差校正的标准流程;临床上,绘制了迄今为止最全面的子宫内膜异位症共病图谱;转化医学方面,为开发基于共病特征的精准分型系统奠定了基础。正如通讯作者Marina Sirota教授指出,这项研究"通过揭示患者亚群的独特共病模式,为理解子宫内膜异位症的复杂病理机制打开了新窗口"。
未来研究可沿三个方向深入:一是整合基因组学数据解析共病背后的分子机制;二是开发基于机器学习的分型预测模型;三是探索将共病特征应用于疗效预测的可能性。随着电子健康记录的持续积累和分析技术的进步,这种数据驱动的研究范式有望在更多复杂疾病领域产生突破性发现。
生物通微信公众号
知名企业招聘