哈萨克族健康人群基因组图谱:首个中亚地区高质量遗传变异数据库的构建与分析
《Scientific Data》:Genomic landscape of the Great Steppe: Genetic variants in healthy Kazakh individuals
【字体:
大
中
小
】
时间:2025年10月24日
来源:Scientific Data 6.9
编辑推荐:
本研究针对中亚地区哈萨克族人群基因组数据缺乏的现状,通过对224名健康哈萨克个体进行Illumina Infinium SNP基因分型分析,获得了523,630个高质量SNP数据。研究揭示了哈萨克人群独特的东-西欧亚混合遗传背景、较低的同源接合水平以及CYP4F2、ADH7等关键药理基因的特异性变异模式,为中亚人群的精准医学研究和公共卫生策略提供了重要数据支撑。
在人类基因组学研究飞速发展的今天,全球不同人群的遗传特征图谱正在被快速绘制。然而在这幅宏大的基因地图上,中亚地区依然存在显著的空白。作为连接东西方的重要桥梁,哈萨克斯坦地区历史上曾是丝绸之路的关键枢纽,其主体民族哈萨克族在遗传学上具有独特的混合特征。但由于缺乏系统性的基因组学研究,这一重要人群的遗传背景始终笼罩在迷雾之中。
以往的研究主要局限于小样本或特定区域,如2019年Narasimhan团队对古代中亚个体的研究,以及2020年Seidualy对单个哈萨克女性的全基因组测序。2024年中国研究人员虽对新疆哈萨克族进行了全基因组微阵列分析,但数据获取受限。这种数据匮乏严重制约了针对哈萨克人群的疾病风险评估、药物基因组学研究和精准医疗策略的开发。
为填补这一空白,由Aygerim Serikzai领衔的研究团队在《Scientific Data》发表了题为"Genomic landscape of the Great Steppe: Genetic variants in healthy Kazakh individuals"的重要研究成果。该研究通过对224名健康哈萨克个体进行高质量基因分型,建立了目前最全面的哈萨克人群遗传变异数据库,为理解这一独特人群的遗传特征提供了宝贵资源。
研究采用Illumina Infinium SNP基因分型芯片GSA MG v2对来自哈萨克斯坦多地区的样本进行检测,覆盖665,608个SNP位点。通过PLINK 1.9等工具进行严格质量控制,保留523,630个高质量SNP。利用ANNOVAR进行变异注释,通过主成分分析(PCA)、群体分化指数(FST)和同源接合(ROH)分析揭示群体遗传结构,采用位点特异性分支长度(LSBL)方法检测正选择信号。
主成分分析显示哈萨克人群位于欧洲与东亚人群之间的中间位置,印证了其历史上作为欧亚桥梁的地理特征。值得注意的是,尽管哈萨克族与维吾尔族都具有欧亚混合 ancestry,但在PCA图中形成明显独立的聚类,表明其独特的遗传构成。
FST热图进一步证实了哈萨克人群与欧亚各群体间的遗传距离较近,支持其东西方遗传混合的特征。这种独特的遗传背景为研究欧亚大陆的人类迁移和基因交流提供了重要窗口。
研究发现在哈萨克人群中,中等长度(1.5-4Mb)和长片段(>4Mb)的ROH数量显著少于其他人群,F(ROH)值也明显较低。这与哈萨克文化中禁止近亲结婚的传统相符,提示该人群可能具有较低的隐性遗传病风险。
研究对检测到的变异进行了系统注释,显示大部分变异位于基因间区、内含子区和非编码区。外显子区变异中以非同义突变和同义突变为主,同时包含一定数量的插入缺失变异。
研究发现哈萨克人群平均每个个体携带89.5938个可能有害的非同义单核苷酸变异(SNV),其中11.2857个为纯合型。这一数字略高于东亚人群(79.9934个)和欧洲人群(85.9339个),但结合其较低的基因组同源接合水平,提示这些有害变异可能具有较古老的起源或独特的适应意义。
研究特别关注了药物基因组学相关变异,发现1,104个变异影响已知或潜在的可药物化蛋白。通过LSBL分析鉴定出74个可能受到正选择的变异,其中几个代表性例子揭示了哈萨克人群独特的等位基因频率模式。
CYP4F2基因的rs2108622变异影响抗凝药物(如华法林)的结合位点,在哈萨克人群中的频率(0.4085)显著高于东亚(0.2895)和欧洲人群(0.2810)。这一发现提示哈萨克患者可能需要调整抗凝药物剂量。
ADH7基因的rs971074变异与上消化道癌症风险相关,在哈萨克人群中的频率(0.1741)高于东亚(0.1358)和欧洲人群(0.0785),这可能与哈萨克斯坦较高的胃癌发病率相关。
脂代谢相关基因也显示出独特模式:APOE基因的rs7412变异在哈萨克人群中频率较低(0.0314),提示该人群可能具有较低的血脂异常风险;而CETP基因的rs5880变异在哈萨克人群中频率较高(0.0424),可能与低高密度脂蛋白胆固醇(HDL-C)水平相关。
研究实施了严格的质量控制流程,初始296个样本的检出率多数超过98%,基因分型质量分数集中在0.8-0.9之间。经过质控后,最终224个样本的检出率均超过90%,基因分型质量更加集中,确保了数据的可靠性。
这项研究首次建立了大规模哈萨克人群高质量基因分型数据集,填补了中亚地区基因组学研究的空白。数据已公开存储于欧洲变异档案库(EVA),为全球研究人员提供了宝贵资源。研究发现不仅揭示了哈萨克人群独特的遗传背景,还鉴定出多个与疾病风险和药物反应相关的特异性变异,为针对该人群的精准医疗实践奠定了基础。
研究的局限性在于SNP芯片无法检测罕见变异和结构变异,未来需要更大样本的全基因组测序来完善这一遗传图谱。此外,鉴定出的生物医学相关变异需要进一步的功能验证和临床研究来明确其病理生理学意义。
这项研究标志着中亚地区基因组学研究的重要进展,为理解人类遗传多样性、群体迁移历史以及开发人群特异性医疗策略提供了新的视角和工具。随着更多功能性研究的开展,这些发现有望转化为改善哈萨克人群健康结局的具体医疗干预措施。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号