探秘 JAK-STAT 基因变异:从 COSMIC 与 “我们所有人” 数据库挖掘疾病遗传密码

【字体: 时间:2025年02月21日 来源:Scientific Reports 3.8

编辑推荐:

  为解决 JAK - STAT 基因错义突变研究的空白问题,研究人员对比 COSMIC 和 All of Us 数据库开展研究。结果发现突变分布特征及三类突变。该研究有助于理解突变影响,推动个性化医学发展,推荐科研读者阅读。

  
在基因的奇妙世界里,有一种叫做单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs)的存在,它可是人类遗传变异中最常见的类型。就像是基因这部 “生命之书” 里的一个个小 “错别字”,虽然只是单个碱基的变化,但却能对我们的健康产生巨大影响。SNPs 可以根据它们在 DNA 上的位置以及对基因表达和功能的潜在影响进行分类。在基因调控的 “舞台” 上,非编码区的 SNPs 能通过影响启动子和增强子等 “关键演员” 来发挥重要作用;而在编码区,又分为不会改变蛋白质氨基酸序列但影响翻译速度的同义 SNPs,以及会导致氨基酸改变、可能影响蛋白质折叠和功能的非同义 / 错义 SNPs。

JAK - STAT 通路(一种在免疫反应和癌症发展中起着关键作用的信号级联反应)中的 SNPs,更是被广泛认为是许多疾病的危险因素或病因。比如 JAK2^{Val617Phe}(也叫 V617F)突变,在骨髓增殖性肿瘤中就十分常见,大约 90 - 95% 的真性红细胞增多症(PV)患者、50 - 60% 的原发性血小板增多症和原发性骨髓纤维化患者都带有这个突变。这个突变就像给 JAK - STAT 通路按下了 “加速键”,即使没有细胞因子的刺激,也能让信号通路持续活跃,促进细胞疯狂增殖和存活。类似的,JAK1 和 JAK3 的突变也与 T 细胞急性淋巴细胞白血病(T - ALL)有关,会让 JAK - STAT 信号级联过度激活。还有 STAT3 基因的突变,与多种癌症的肿瘤侵袭性增加和预后不良相关,在 T 细胞肿瘤中更是常见,它能通过促进细胞增殖和存活来帮助癌细胞 “茁壮成长”。

这些已知的突变大多被收录在各种数据库中,像专注于癌症相关体细胞突变的 COSMIC 数据库、展示人类遗传多样性的 gnomAD 数据库、汇总其他数据库 SNP 信息的 dbSNP 数据库,以及关注美国人群遗传多样性、尤其是代表性不足群体的 All of Us 数据库。每个数据库都有自己的特点和用处,但目前却存在一些问题。一方面,对于 JAK 和 STAT 基因特定结构域中错义突变的频率,以及这些突变在不同种族和性别人群中的流行情况,还缺乏系统的分析。另一方面,疾病特异性数据库(如 COSMIC)和普通人群数据库(如 All of Us)之间关于 JAK 和 STAT 基因 SNP 的比较研究也存在空白。

为了填补这些知识的 “空白区”,研究人员在《Scientific Reports》期刊上发表了题为 “Comparative analysis of JAK - STAT gene mutations in the general population and cancer patients” 的论文。通过这项研究,他们发现 JAK 和 STAT 基因的所有结构域都频繁发生突变,尤其是在白人女性中。而且还将发现的突变分为三类:第一类是在 All of Us 数据库中独有的突变,这些突变在文献中与癌症相关,但在 COSMIC 数据库中却找不到,这显示出 COSMIC 数据库存在一定的局限性;第二类是 COSMIC 数据库独有的突变,由于它们在普通人群中不存在,所以很可能是癌症的驱动突变;第三类是两个数据库都有的突变,比如 JAK2^{Val617Phe/V617F},它虽然被广泛认为是造血细胞中的癌症驱动突变,但在 All of Us 数据库中却没有疾病关联,这意味着可能是多个 SNP 组合在一起才导致了疾病的发生。这些发现不仅说明了两个数据库在理解突变影响方面具有互补性,还强调了进行多突变分析对于揭示复杂疾病遗传因素、推动个性化医学发展的重要性。

研究人员为了开展这项研究,主要运用了以下几种关键技术方法:首先,他们通过 All of Us Data Browser(这是一个能让用户探索聚合基因组数据,包括 SNPs 及其与人口统计学变量和疾病诊断关联的工具),访问了 All of Us 研究项目中的遗传数据(All of Us Controlled Tier Dataset v7,包含 413,000 名参与者),筛选出 JAK - STAT 基因家族中的错义突变,并分析这些突变在不同人口统计学群体中的流行情况以及与疾病的关联。其次,他们利用 COSMIC 数据库(COSMIC v100),通过其在线工具提取 JAK - STAT 通路中的错义突变信息,包括突变的样本数量和相关疾病关联等。最后,研究人员手动对两个数据库的 SNP 数据进行比较分析,找出两个数据库中突变的重叠部分以及各自独有的突变,进而评估这些突变在普通人群和癌症患者中的临床相关性。

下面我们来详细看看研究的具体结果:

  1. 评估普通人群中 JAK 和 STAT 基因结构域错义突变的频率:研究人员在 All of Us 数据库中查看了 JAK 和 STAT 基因家族各结构域的突变情况,并将其可视化展示在图 1 中。结果发现,STAT 基因的不同结构域突变率差异明显。比如在对二聚化至关重要的 N - 末端结构域,STAT6 的突变率最低,只有 4%,而 STAT1 的突变率最高,达到 11%。在促进蛋白质 - 蛋白质相互作用的卷曲螺旋结构域,突变率相对较为一致,STAT6 最低,为 15% 。在与基因启动子相互作用的 DNA 结合结构域,STAT4 的突变率最低,为 27%,STAT5A 最高,达到 37%。而在连接功能区域的连接子结构域,STAT5B 的突变率最低,仅为 3%。对于在磷酸化依赖信号传导中起关键作用的 SH2 结构域,STAT5B 的突变率最低,为 24%,STAT2 最高,达到 34%。最后,调节转录活性的 TAD 结构域,STAT1 的突变率最低,为 29%,STAT6 最高,达到 42%。总体来看,STAT 基因的 SH2 和 TAD 结构域在普通健康人群中的突变更为频繁。

JAK 基因的各个结构域突变率也各不相同。起始连接区域,JAK1 的突变率最低,为 2%,JAK3 最高,所有残基都受到影响。对与细胞因子受体相互作用至关重要的 FERM 结构域,JAK1 的突变率最低,为 51%,TYK2 最高,达到 100%。FERM 连接区域,JAK1 的突变率最低,为 22%,JAK3 最高,达到 100%。在识别和结合磷酸化酪氨酸残基的 SH2 结构域,JAK1 的突变率最低,为 40%,JAK3 最高,达到 70%。SH2 连接结构域,JAK1 和 TYK2 的突变率最低,为 11%,JAK3 最高,达到 100%。调节激酶活性的假激酶结构域,TYK2 的突变率最高,为 57% 。假激酶连接区域,JAK2 的突变率最低,为 1%,JAK3 最高,达到 100%。对催化活性至关重要的激酶结构域,JAK1 的突变率最低,为 35%,JAK2 最高,达到 65%。由此可见,JAK 基因结构域的变异通常比 STAT 基因结构域更频繁,而且没有一个 JAK 和 STAT 基因家族的结构域在普通人群中是完全保守的。
2. 比较在 All of Us 或 COSMIC 中鉴定出的 JAK/STAT 基因错义单核苷酸变异与文献中已知信息的差异,以及它们在 All of Us 中与疾病的关联:研究人员在 All of Us 数据库中找出了至少在 20 个人中出现的 JAK 和 STAT 基因家族错义突变,并评估这些突变与疾病的关联,同时对每个突变进行文献回顾。结果发现,JAK - STAT 通路成员的突变在女性中更为常见。STAT1 突变在黑人女性和西班牙裔女性中最为频繁;STAT2 和 STAT3 突变在黑人、西班牙裔女性以及白人女性中都有较多发现;STAT4 突变主要出现在黑人女性中;STAT5A、STAT5B 和 STAT6 突变在白人女性和黑人女性中较为普遍;JAK1、JAK2、JAK3 和 TYK2 突变也倾向于在女性中出现,尤其是白人女性。但在 All of Us 数据库中,这些 SNP 都没有与特定疾病有明显关联。

在研究过程中,研究人员还注意到一些在亚洲人群中出现的 JAK - STAT 通路突变。例如,在 All of Us 数据库中,有 205 人携带 rs56118985(JAK2^{Gly127Asp})突变,其中大多数是亚洲女性。文献中表明这个错义突变与费城染色体阴性骨髓增殖性肿瘤(Ph - MPN)相关,但在 COSMIC 数据库中没有发现这个突变,而且 All of Us 数据库中的这些人也没有被诊断出患有相关疾病。

研究人员进一步比较了 All of Us 和 COSMIC 数据库中都有的变异。以 rs77375493(JAK2^{Val617Phe})为例,它在 COSMIC 数据库中有 48,389 人携带,在 All of Us 数据库中有 278 人携带,且 79% 的携带者年龄在 65 岁及以上。虽然文献中广泛认为它是疾病风险因素,但在 All of Us 数据库中,这些携带者却没有被诊断出患有癌症。类似的,rs3213409(JAK3^{Val722Ile})在两个数据库中都存在,文献中它与多种癌症相关,但在 All of Us 数据库中却没有疾病关联记录。

研究人员还发现了一些在文献中与各种癌症相关,但在 COSMIC 数据库中不存在、却在 All of Us 数据库中的变异。比如 rs3212723(JAK3^{Pro132Thr}),在 All of Us 数据库中有 10,507 人携带,主要是黑人女性,文献中它与急性巨核细胞白血病、头颈部癌和造釉细胞瘤相关,但在 All of Us 数据库中,携带者主要患有原发性高血压和胸痛。还有 rs139504737(JAK2^{Gly571Ser})等多个变异,在文献中与多种恶性肿瘤相关,但在 All of Us 数据库中却没有相应的疾病关联记录。

反过来,研究人员也找出了在 COSMIC 数据库中存在但 All of Us 数据库中没有的 SNP。例如 rs2081548277(STAT3^{Gly618Arg}),在 COSMIC 数据库中有 21 个样本携带,它与多种血液和淋巴系统恶性肿瘤相关,尤其是 T 细胞淋巴瘤,属于功能获得性(GOF)突变,会促进细胞增殖。还有 rs770986654(STAT3^{Asn647Ile})、rs747639500(STAT3^{Asp661Tyr})等多个 SNP,在文献中都与特定的血液系统恶性肿瘤相关,且都是功能获得性突变,促进了癌细胞的生长和存活,但在 All of Us 数据库中却未被发现。

此外,研究人员还发现了一个在 All of Us 数据库中独有的 SNP(rs369530676,TYK2^{Arg118Gln}),在 34 个人中存在,携带这个变异的人大多被诊断出患有 2 型糖尿病,不过目前文献中还没有关于它的讨论,这为未来的研究提供了新的方向。

在研究结论和讨论部分,研究人员指出,JAK - STAT 信号通路在物种进化过程中高度保守,对细胞通讯和免疫反应至关重要。虽然在 All of Us 数据库中,大多数已鉴定的 SNP 无法与任何疾病相关联,但这并不意味着它们没有影响。这些突变可能会微妙地影响个体的免疫反应和信号通路,而且某些 JAK 和 STAT 蛋白结构域较高的突变率表明,这些突变可能对人群遗传多样性有贡献。

同时,研究还发现 JAK - STAT 通路的 SNP 在白人女性中更为普遍,这暗示了遗传易感性在不同种族和性别之间可能存在差异,这对于研究与 JAK - STAT 信号通路相关的疾病,如血液系统恶性肿瘤和自身免疫性疾病,具有重要意义,值得进一步深入研究。

另外,通过对 All of Us 和 COSMIC 数据库的研究,发现不同数据库在突变呈现和疾病关联方面存在差异。突变可以分为三类,每一类都反映了当前遗传数据及其解释的局限性。例如,JAK2^{Val617Phe} 等一些已知的癌症驱动突变出现在普通人群数据库中,可能是因为克隆性造血(一种癌前状态,在看似健康的个体中也可能检测到体细胞突变)的存在。而在 All of Us 数据库中独有的突变,可能是由于诊断不足,或者这些突变在采样时还未引发疾病。COSMIC 数据库中独有的突变,虽然在普通人群中不存在,但对于研究癌症驱动突变却非常有价值。这充分说明了不同遗传数据库各有优缺点,相互补充。

最后,研究人员强调,大多数复杂疾病可能不是由单个 SNP 引起的,而是多个 SNP 共同作用的结果。就像一些研究表明,3 - 7 个 SNP 的组合可以对类风湿性关节炎、糖尿病或阿尔茨海默病等复杂遗传性疾病有更高的预测分数。这意味着在癌症研究中,也可以采用类似的多 SNP 分析方法,也许多个偶然出现的 SNP 共同作用才是癌症的根源。

总的来说,这项研究意义重大。它强调了整合人群水平数据和疾病聚焦资源的重要性,COSMIC 数据库能帮助我们了解癌症相关突变,而 All of Us 数据库则能让我们看到普通人群的遗传多样性。两个数据库的差异让我们明白,要综合多种遗传数据来源,才能更好地理解突变在疾病发生中的作用。单一的数据库无法全面研究遗传突变对疾病的影响,未来的研究需要拓展到多 SNP 分析,并整合更多样的数据来源,这样才能更准确地预测复杂疾病的重要遗传因素,推动个性化基因组医学的发展,为人类健康带来新的希望。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号