编辑推荐:
在多基因评分(PGS)研究中,传统方法存在计算效率低、内存需求大等问题。为解决这些难题,研究人员开展了 “blockLASSO” 方法训练 PGS 的研究。结果表明,该方法在不同生物样本库和祖先群体中,与传统 LASSO 效果相似,但计算效率更高,为探索性研究提供了新途径。
在生命科学和健康医学领域,多基因评分(Polygenic Scores,PGS)正逐渐成为理解遗传结构、识别疾病潜在遗传风险以及应用于临床的重要工具。传统的 PGS 构建方法主要有两种:一种是基于单标记回归,结合基因组信息进行加权;另一种则是直接在基因组子集上执行训练算法。然而,这两种方法都存在各自的缺陷。第一种方法依赖全基因组关联研究(Genome-Wide Association Studies,GWAS)结果,在近似基因组水平数据的过程中容易丢失信息;第二种方法虽然直接在基因组数据上训练算法,但需要加载庞大的遗传矩阵,对计算机内存要求极高,计算成本也很高。这些问题限制了 PGS 的广泛应用和深入研究,因此,寻找一种更高效、更实用的 PGS 训练方法迫在眉睫。
为了解决这些问题,来自密歇根州立大学(Michigan State University)和 Genomic Prediction, Inc. 的研究人员 Timothy G. Raben、Louis Lello、Erik Widen 和 Stephen D. H. Hsu 开展了一项关于 “block” LASSO(blockLASSO)方法训练 PGS 的研究。该研究成果发表在《BMC Genomics》杂志上。
研究人员在研究过程中,主要运用了以下关键技术方法:
- 样本处理与分组:使用来自 All of Us(AoU)和英国生物样本库(UK Biobank,UKB)的数据,通过自我报告、调查数据、ICD9/10 编码诊断和实验室测量确定表型,对样本进行预处理,去除异常值。将样本分为训练集、模型选择集(验证集)和测试集,其中在两个生物样本库中均使用欧洲(EUR)队列进行训练,其他队列用于测试8911。
- 特征选择:通过 GWAS 对单核苷酸变异(Single Nucleotide Variants,SNVs)进行排序,选择候选 SNVs。针对不同的方法(blockLASSO 和传统 LASSO)和不同的生物样本库,设置不同的筛选条件。例如,在选择特征时使用等位基因频率 > 0.001 的阈值,以避免假阳性关联1213。
- 模型训练:使用 Scikit-Learn 进行 LASSO 算法训练,在 blockLASSO 中,假设关联结构为块对角矩阵,对每个块独立运行 LASSO 算法,然后重新加权,确定每个块的相对重要性1415。
研究结果如下:
- blockLASSO 与传统 LASSO 的性能比较:在 AoU、UKB 以及 UKB 缩减训练集(UKB*)中,对 11 种不同表型进行研究。通过比较接受者操作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve,AUC)和表型与 PGS 的相关性(corr.),发现 blockLASSO 与传统的(全局)LASSO 在训练 PGS 方面效果大致相同。例如,在 AoU 中,blockLASSO 训练的 1 型糖尿病(T1D)的 PGS 的 AUC 为 0.63±0.02,体重指数(Body Mass Index,BMI)的相关性为 0.21±0.01;传统 LASSO 训练的 T1D 的 AUC 为 0.65±0.03,BMI 的相关性为 0.19±0.03123。
- 计算效率和内存使用:blockLASSO 在计算效率和内存使用方面表现优异。使用全 UKB 数据训练时,blockLASSO 比传统的全局 LASSO 快得多,使用的内存也少得多。例如,在训练痛风、牛皮癣和 1 型糖尿病等疾病的预测模型时,blockLASSO 平均每个染色体使用 133 个 SNV,仅需 2.63GB 内存,运行时间为 0.924 秒。相比之下,基于 scikit-learn 的传统全局 LASSO 使用 50,000 个 SNV,需要 500 - 700GB 内存,运行时间为 8 - 24 小时456。
- 特征选择和解释:blockLASSO 和传统 LASSO 使用不同的输入 SNVs,但通过比较它们对 PGS 方差的解释发现,blockLASSO 能够恢复与传统 LASSO 相似的重要区域,且权重相似。这表明即使使用不同的特征选择方法,blockLASSO 仍能获得有意义的 PGS710。
研究结论和讨论部分指出,blockLASSO 为多基因评分的训练提供了一种高效的新方法。它能够在保证预测性能的同时,显著减少计算时间和内存需求,这对于大规模的基因组分析和云计算环境下的研究具有重要意义。随着越来越多的生物样本库采用第三方云计算资源,这种高效的方法能够降低研究成本,使研究人员能够更便捷地开展探索性研究。此外,研究还发现训练和测试多基因预测器在很大程度上与数据集无关,这表明混杂因素对基于 LASSO 的 PGS 影响较小。然而,该方法也存在一些局限性,如对变异的预筛选更为敏感,可能导致过拟合。未来的研究可以进一步探索如何优化 blockLASSO 方法,结合其他筛选规则、功能信息和表型定义的优化,进一步提高 PGS 的性能。同时,尽管 PGS 在临床实践中展现出了巨大的潜力,但仍面临着实际和伦理方面的挑战,需要在后续研究中加以关注和解决。