编辑推荐:
为解决多基因评分(PGS)在临床应用中缺乏特定人群参考分布的问题,研究人员开展了西班牙人群 PGS 分布的研究。他们分析 2190 名西班牙人基因组和外显子组数据,得出 3124 个 PGS 分布结果,对个性化医疗和公共卫生干预意义重大。
在生命科学和医学领域,多基因评分(Polygenic Score,PGS)正逐渐成为预测疾病遗传易感性的有力工具。传统观念认为,疾病风险主要与特定突变相关,比如乳腺癌诊断中的 ATM、BRCA1/2 等基因 突变。然而近年来研究发现,在许多常见疾病中,多基因遗传的影响可能比罕见的单基因高风险突变更为显著。而且,PGS 能够衡量多个常见的、微小效应遗传变异的累积作用,为探究疾病发生机制提供新视角。
但 PGS 在临床应用中面临诸多挑战。不同种族群体间,由于等位基因频率和连锁不平衡模式存在差异,PGS 分布也有很大不同。例如,在一项针对不同种族人群 2 型糖尿病 PGS 阈值的研究中,发现白人和黑人参与者超过阈值的比例差异巨大。这就意味着,在临床实践中,为了准确评估个体疾病风险,需要有针对特定人群的 PGS 参考分布。遗憾的是,目前大多数人群缺乏这样的参考数据,尤其是西班牙人群。
为填补这一空白,来自西班牙多个研究机构的研究人员开展了深入研究,相关成果发表在《European Journal of Human Genetics》上。
研究人员利用来自西班牙合作变异服务器(Collaborative Spanish Variant Server,CSVS)的 2190 名无亲缘关系的西班牙个体的基因组和外显子组数据进行研究。这些数据来源广泛,涵盖多个西班牙研究项目和机构的贡献。在研究过程中,主要运用了以下关键技术方法:首先,对原始数据进行严格的预处理,去除无效数据、修正 VCF 文件格式、排除非标准染色体等;其次,采用 SHAPEIT v4 和 minimac v4 等软件进行缺失变异的填补;最后,使用 pgsc_calc v1.3.1 软件计算 PGS,并通过 SciPy 和 Statsmodels 等工具进行 PGS 的相关性分析。
下面来详细看看研究结果:
- PGS 计算:研究人员计算了 PGS 目录中的 3138 个 PGS,由于部分数据在 CSVS 队列中变异性受限,最终成功生成 3124 个 PGS,对应 538 种性状,涵盖癌症、消化系统疾病、心血管疾病等多种疾病及相关性状。
- 西班牙 PGS 参考分布:构建了包含 3124 个 PGS 分布的数据集,这些分布覆盖多种疾病和数量性状,且多数 PGS 得分分布近似正态分布。不过,即使针对同一疾病的 PGS,其均值和标准差也存在显著差异,如不同的乳癌 PGS,像 PGS001778 和 PGS002242,均值和标准差各不相同。
- 基于 PGS 成对相关性的疾病与性状潜在关系:通过计算 PGS 间的成对相关性,发现了许多具有显著相关性的临床表型和性状。例如,乳糜泻与水痘 - 带状疱疹病毒血清阳性之间存在高正相关(r = 0.8537) ,维生素补充剂暴露测量与多发性硬化症呈负相关(r = -0.8158)等,其中部分相关性与已知医学认知相符,还有些是此前未被发现的潜在关系。
- 数据处理流程:开发了一套完整的数据预处理、分型和填补的流程,该流程基于 Nextflow 开发,支持多种计算平台,可在不同环境下实现标准化的 PGS 计算和比较,并且已在 GitHub 上开源(https://github.com/babelomics/SpPGS)。
- Web 界面:功能与特性:设计了一个用户友好的 Web 界面,方便研究人员和临床医生探索 PGS 参考分布。界面包含 PGS 列表、频率直方图、分布参数展示以及搜索和筛选功能,用户可根据不同条件筛选查看特定的 PGS 分布信息。
研究结论和讨论部分指出,该研究成果意义重大。西班牙 PGS 参考分布数据集为评估西班牙人群疾病风险提供了关键依据,有助于在临床实践中进行患者分层和精准医疗,推动 PGS 在西班牙医疗系统中的广泛应用。而且,研究中开发的数据处理流程和研究策略具有通用性,可用于构建其他人群的特定 PGS 分布,为全球个性化医疗发展助力。不过,目前 PGS 研究仍存在一些局限,比如 PGS 目录中与药物反应相关的 PGS 代表性不足,且在解释 PGS 相关性时需谨慎,因为可能存在人为因素导致的偏差。未来,随着研究的深入和数据的积累,PGS 有望在临床医疗中发挥更大的作用,为人类健康带来更多福祉。