汉族人群特异性多基因风险评分模型的构建与验证——基于台湾精准医学计划的50万人基因组研究
《Nature》:Population-specific polygenic risk scores for people of Han Chinese ancestry
【字体:
大
中
小
】
时间:2025年10月17日
来源:Nature 48.5
编辑推荐:
本研究通过台湾精准医学计划(TPMI)对50万汉族人群进行全基因组关联分析(GWAS),开发了针对心血管代谢疾病、自身免疫性疾病和传染性疾病等复杂性状的群体特异性多基因风险评分(PRS)模型。研究首次系统揭示了东亚人群独特的遗传结构,发现95个新遗传关联位点,并证实PRS模型在台湾生物样本库(TWB)、英国生物样本库(UKB)和All of Us项目中均保持优异预测性能(例如2型糖尿病AUC=0.640±0.005),为推进精准医学在非欧洲人群中的应用提供了重要范式。
精准医学的核心目标是通过个体基因组信息预测复杂疾病风险,然而当前遗传研究严重偏向欧洲血统(EUR)人群,导致全球范围内精准医学发展的不平衡。东亚人群(EAS)占全球人口近四分之一,但仅占既往GWAS研究对象的3.95%。台湾精准医学计划(TPMI)招募并基因分型了超过50万台湾居民,其中绝大多数为汉族血统,结合其电子病历(EMR)数据,为开展大规模汉族人群特异性遗传研究提供了宝贵资源。
TPMI队列从台湾16个医疗中心招募了486,956名参与者,最终纳入463,447名遗传背景与汉族参考人群相似的个体进行分析。研究共考察695个二分类表型(病例数>2,000)和24个数量性状(样本量>10万),覆盖肿瘤、代谢疾病、循环系统疾病、自身免疫性疾病等多个疾病类别。与台湾全民健康保险研究数据库(NHIRD)的5年疾病患病率相比,TPMI的病例比例呈现中度正相关(r=0.656, P=2.69×10-84),提示医院为基础的队列设计可能对初级诊疗机构中的轻症疾病捕获不足。
GWAS共发现265个二分类表型和全部24个数量性状存在至少一个显著关联位点(P<5×10-8)。与EAS的GWAS目录相比,显示出较高的复制率(实际/预期比值AER=78.17%),尤其在内分泌疾病和血液疾病方面(AER分别为88.68%和84.62%)。通过精细定位,共识别出2,656个独立的变异-性状关联信号,其中包括95个全新关联(即1 Mb范围内GWAS目录中未报道)和217个来自已知区域的新位点(即与已知关联变异连锁不平衡r2<0.1)。例如,rs17089782(PIBF1基因错义变异)与甲状腺癌风险相关(P=2.8×10-9),该变异在TPMI中的次要等位基因频率(MAF)为5.65%,但在EUR人群中仅为0.01%,凸显了人群特异性研究的价值。另一个例子是rs761018157与体重指数(BMI)的关联(P=4.8×10-9),该位点位于PHOX2B基因附近,此前仅在小规模研究中与肥胖低通气综合征相关。
特别值得注意的是,利用台湾地区乙型肝炎病毒(HBV)高携带率(未接种疫苗队列为9.78%)的优势,研究在23,618例乙肝病例中鉴定出26个独立基因座,其中19个为全新发现,极大拓展了对乙肝宿主遗传因素的理解。
连锁不平衡评分回归(LDSC)分析显示,某些性状具有较高的SNP遗传度(h2),如酒精使用障碍(h2=0.213)、尿潴留(h2=0.163)和开角型青光眼(h2=0.160)。在数量性状中,身高(h2=0.323)、BMI(h2=0.218)和高密度脂蛋白胆固醇(h2=0.191)的遗传度估计值最高。基因水平遗传度分析识别出329个对表型变异有显著贡献的独特基因,其中45个基因影响多个表型,如APOE、APOC1、TOMM40、ABCG2和KCNQ1等关键基因。
共定位分析进一步阐明了GWAS信号的潜在分子功能。利用基因型-组织表达项目(GTEx)、多祖先基因表达分析(MAGE)和日本COVID-19工作组(JCTF)的eQTL数据,研究发现391个独特基因可能通过其表达水平介导疾病结局(后验概率>0.9)。例如,GBAP1基因与尿酸、血清肌酐、血细胞比容、高血压和痛风等五种不同性状存在共定位。与GTEx全血eQTL相比,多祖先淋巴母细胞系eQTL和日本全血eQTL数据集额外发现了309个基因-性状对,强调了增加祖先多样性在功能基因组学资源中的迫切性。
遗传相关性和聚类分析揭示了三个主要的表型聚类:心血管代谢性状、自身免疫/感染性疾病以及肾脏相关性状。心血管代谢聚类包括2型糖尿病、高血压和BMI等,强化了心血管和代谢疾病在表型和遗传架构上的相互关联。自身免疫/感染性疾病聚类包含病毒性乙型肝炎、银屑病和系统性红斑狼疮等,揭示了共享的免疫系统通路和潜在的基因-病原体相互作用。肾脏相关聚类涉及痛风、慢性肾脏病、肾及输尿管结石、强直性脊柱炎以及尿素氮、肌酐和尿酸的测量值。
研究团队利用这种共享的遗传架构,开发了多性状PRS模型(PRSmix+)。与单性状PRS模型(LDpred2)相比,多性状模型显著提升了预测精度。对于心血管代谢疾病聚类,AUC从0.608提升至0.648,表型方差解释率(r2)提高了1.770倍。自身免疫和肾脏疾病聚类的平均AUC也分别提高了0.018和0.009,r2分别提高了1.351倍和1.349倍。多性状PRS预测能力的显著增强(配对t检验比较LDpred2和PRSmix+的r2,P=1.07×10-13)凸显了利用共享遗传架构提升疾病风险预测的潜力。
为评估PRS模型的稳健性和普适性,研究在TWB(n=88,628)、UKB东亚人群(n=9,893)和All of Us东亚人群(n=6,895)中进行了外部验证。TPMI衍生的PRS模型在三个大型队列中均表现出色,AUC范围在TWB中为0.548(青光眼)至0.712(前列腺癌),在UKB中为0.557(女性乳腺癌)至0.634(高血压),在All of Us中为0.520(偏头痛)至0.709(痛风)。对于乙型肝炎,TPMI衍生的模型在TWB中对乙肝表面抗原(HBsAg)的预测AUC达到0.674±0.003,表明该PRS在预测疾病症状和严重程度方面具有重要价值。
与基于UKB欧洲人群数据开发的PRS模型相比,TPMI衍生的模型在应用于东亚人群时,对病毒性乙型肝炎、2型糖尿病、高血压、痛风和偏头痛等疾病表现出更好的预测性能。对于其他性状,TPMI衍生模型也 consistently 优于UKB模型,尽管置信区间存在重叠。此外,包含TPMI数据的跨群体PRS模型(PRS-CSx)在非东亚和非欧洲人群中也观察到轻微但非显著的性能改善。
研究进一步评估了遗传风险对整体健康指标的影响,以门诊次数和累计住院时长作为粗略的衡量标准。研究发现,131个表现最佳的PRS模型(AUC>0.55的LDpred2模型、所有PRSmix+模型以及所有数量性状模型)与整体健康指数显著相关,在调整性别、年龄和招募医院后,解释了门诊频率变异的8.47%(P=2.69×10-14)和住院时长变异的10.29%(P=5.62×10-27)。在已识别的聚类中,心血管代谢疾病聚类的贡献最大,分别解释了1.32%的门诊变异(P=0.02)和3.55%的住院变异(P=7.10×10-9),这可能反映了医院为基础的TPMI队列中心血管代谢疾病的高患病率。
本研究通过对约50万汉族人群的大规模GWAS,系统描绘了其全表组范围的基因组景观,并成功开发了针对多种疾病的群体特异性PRS模型。对于队列中样本量充足的性状,其PRS性能可与基于UKB欧洲人群数据开发的模型相媲美。新发现的群体特异性风险变异有助于深入理解其分子机制,并凸显了PRS模型中人群特异性权重的重要性。
研究的局限性包括医院为基础的队列可能存在的检出偏倚、EMR数据的不完整性(部分参与者就诊于多个医疗机构)、当前eQTL数据集中东亚人群的代表性不足,以及年轻高危参与者随访时间较短无法确定其最终疾病结局等。未来计划通过获取TPMI参与者更完整的EMR、招募更多常见疾病的严重亚型患者、对无症状高危参与者进行长期随访以监测疾病发生,并将TPMI与TWB、韩国基因组流行病学研究、中国嘉道理生物样本库和日本生物样本库等其他大型东亚生物样本库进行荟萃分析,以期进一步深化对东亚人群遗传病因学的理解并改进预测模型。
总之,TPMI产生的大规模汉族人群数据集为开展全表组范围的遗传分析和训练多种疾病与性状的风险预测模型奠定了基础。所开发的模型在不同生物样本库的东亚人群中均表现出稳定的性能,预示着其在汉族和东亚血统人群中的应用前景。本研究为目前缺乏此类资源的群体开发PRS模型提供了范本,期待未来全球所有人群都能从基于风险的健康管理中受益,实现精准健康的承诺。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号