
-
生物通官微
陪你抓住生命科技
跳动的脉搏
UK Biobank中313种疾病表型算法的计算框架构建与验证:提升生物医学研究的可重复性与泛化性
【字体: 大 中 小 】 时间:2025年07月10日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对生物银行中疾病表型定义碎片化、数据源异构性等挑战,开发了整合电子健康记录(EHR)、问卷和临床注册数据的计算框架Pomegranate,在UK Biobank中系统定义了313种疾病表型。通过多维度验证(包括数据源一致性、流行病学模式、遗传相关性等),证实该框架能有效克服UK Biobank人群选择偏倚,为跨生物银行联合分析提供标准化工具。研究成果发表于《Scientific Reports》,开源代码库将推动精准医学研究的可重复发展。
在基因组学技术飞速发展的今天,大型生物银行如UK Biobank已成为疾病研究的宝贵资源。然而,这些资源面临一个关键瓶颈:如何从碎片化的医疗数据中准确、可重复地定义疾病表型?当前表型定义方法存在三大痛点——不同医疗机构使用互不兼容的医学术语系统(如Read v2、CTV3、ICD-10)、病例识别过度依赖单一数据源、验证标准缺乏系统性。这导致研究结果难以跨队列比较,严重制约了生物医学发现的转化应用。
针对这一挑战,伦敦大学学院健康信息学研究所(University College London Institute of Health Informatics)的Ana Torralbo团队开发了名为Pomegranate的计算框架。该研究整合了UK Biobank中502,356名参与者的七类数据源(包括初级诊疗、住院记录、癌症登记等),通过标准化四套医疗本体系统,构建了313种疾病的表型算法。创新性地采用五层验证体系:跨数据源表征分析显示原发性甲状旁腺功能亢进92%病例通过初级诊疗捕获,而间皮瘤90%依赖癌症登记;与英国代表性人群(CALIBER队列)的流行病学对比显示年龄标准化患病率Spearman相关性>0.95;遗传验证中9/10疾病与外部GWAS研究呈现显著遗传相关性(如2型糖尿病rg=0.97)。这些发现证实,尽管UK Biobank存在健康志愿者偏倚,该框架仍能提取具有生物学合理性的表型特征。
关键技术方法包括:1) 基于YAML文件的标准化表型定义模块,支持多本体术语映射;2) 使用SQL和Python构建的ETL(提取-转换-加载)流水线处理13.7百万条医疗事件;3) 采用Cox比例风险模型评估BMI、吸烟等可改变风险因素关联(Bonferroni校正P<0.0002);4) 基于全基因组测序数据(n=490,640)进行GWAS分析,通过LDSC(连锁不平衡评分回归)计算遗传相关性。
主要研究结果体现在四个维度:
跨数据源表征:不同疾病呈现显著捕获偏好性,如维生素B12缺乏症92%病例来自初级诊疗,而前列腺癌93%通过癌症登记识别。这种差异反映了临床实践中的疾病记录特征。
流行病学验证:年龄-性别分布模式与临床认知高度一致,如男性外周动脉疾病发病率随年龄陡增,而甲状腺功能减退症女性 predominance。与CALIBER队列比较显示,UK Biobank中溃疡性结肠炎患病率更高(95%CI不重叠),但哮喘较低,提示人群差异而非算法缺陷。
可改变风险因素:确认了肥胖(BMI≥30)与2型糖尿病(HR=2.1)、高血压与糖尿病神经并发症(HR=3.4)等108个已知关联,同时发现吸烟与银屑病(HR=1.8)等25个新关联,为病因学研究提供线索。
遗传架构分析:10个测试疾病中9个显示强遗传相关性(如克罗恩病rg=0.95),仅卵巢癌因参考GWAS遗传力低(h2obs=0.0048)未达显著性,证实表型定义的分子水平稳健性。
这项研究的里程碑意义在于:首次在UK Biobank规模上实现表型定义的标准化与自动化,其开源框架Pomegranate可直接应用于FinnGen、Million Veteran Program等国际生物银行。通过建立包含数据源贡献度、风险因素谱、遗传验证度的"表型验证档案"(如图6银屑病档案),为研究者提供了评估表型质量的量化工具。尽管存在局限性(如老年疾病捕获不全),该工作为克服生物银行选择偏倚提供了方法论范例,将加速跨人群、跨医疗系统的精准医学研究。
生物通微信公众号
知名企业招聘