大规模全基因组测序揭示中国人群肺癌非编码调控元件的遗传基础

【字体: 时间:2025年08月11日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对东亚人群肺癌相关遗传元件尚未充分解析的现状,通过13,722例中国人群全基因组测序(WGS)系统扫描非编码调控区域。研究人员整合297例肺组织基因组-转录组参考面板,采用STAAR流程进行罕见变异聚合分析,发现PARPBP、PLA2G4C等新型调控基因,并通过深度学习揭示TP53、MYC等上游调控网络,为肺癌干预提供新靶点。该成果发表于《Nature Communications》,填补了亚洲人群非编码遗传研究的空白。

  

肺癌作为中国发病率和死亡率最高的恶性肿瘤,其遗传机制研究长期面临两大瓶颈:一是全基因组关联研究(GWAS)发现的40余个易感位点多位于非编码区,分子机制不明确;二是常见变异仅能解释部分遗传力,罕见变异尤其是非编码区变异的作用尚未系统探索。既往基于欧洲人群的GTEx数据库难以反映亚洲人群的调控特征,而芯片检测和全外显子测序(WES)又无法覆盖97%的非编码区域。

浙江大学医学院附属第二医院联合多个研究中心开展了迄今最大规模的中国人群肺癌全基因组研究。通过对11,058例发现集和3,055例验证集样本进行深度测序(平均深度21×),整合297例肺组织转录组数据构建亚洲特异性参考面板,首次系统解析了非编码调控元件在肺癌发生中的作用。

研究采用三大关键技术:1) 基于GATK流程的WGS变异检测,通过变异质量值重校准(VQSR)将非参考一致性提升至99.6%;2) 开发STAAR-O整合分析方法,同步扫描编码区(错义、pLoF等5类)和非编码区(启动子、增强子等8类)罕见变异;3) 应用DeepSEA/Sei深度学习框架预测转录因子(TF)结合位点。

【GWAS与转录组关联分析】

通过广义线性混合模型(fastGWA)发现19个显著变异,meta分析确认TERT和TP63等已知位点。利用弹性网络模型构建基因表达预测模型,将TP63(解释度4.8%)、DCBLD1等基因的调控变异与肺癌风险关联,其中DCBLD1在肿瘤组织表达显著上调(logFC=0.63, P=2.16×10-54)。

【罕见变异发现与验证】

基因中心分析鉴定13个显著基因,其中ENO1(糖酵解关键酶)在启动子区变异与肺癌相关(P发现=1.52×10-4, P验证=2.92×10-3)。滑动窗口扫描发现CMIP内含子等4个调控片段,增强子富集分析显示其在肺细胞系特异性活跃。PARPBP(DNA修复基因)通过启动子(P=4.11×10-5)和UTR(P=4.93×10-2)变异显著关联,与UK Biobank的pLoF信号(P=7.07×10-2)形成多组学印证。

【调控机制解析】

深度学习揭示EFHD2增强子变异可能影响TP53、ZEB1结合(P后验概率差>0.1),scRNA-seq显示相关基因在增殖T/NK细胞富集(Pperm<0.01)。GSEA分析发现COSMIC癌基因与增强子变异基因显著重叠,提示编码与非编码变异的协同致癌机制。

这项研究建立了中国人群最全面的肺癌遗传图谱,首次证实PLA2G4C(磷脂酶A2家族)等基因通过非编码调控参与肺癌发生。通过整合WGS、表观组和深度学习,不仅验证了TP63-DCBLD1等经典通路,更发现PARPBP-DNA修复网络和RITA1-Notch信号等新型调控轴。这些发现为亚洲人群肺癌风险预测提供了分子标志物,并为靶向非编码区的精准干预奠定基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号