《Nature Communications》:Computation and resource efficient genome-wide association analysis for large-scale imaging studies
编辑推荐:
本研究针对影像遗传学中体素级全基因组关联分析(voxel-level GWAS)计算量大、存储负担重的核心难题,提出了基于表征学习的RVGA框架。该框架在提升统计功效的同时,显著降低了计算耗时与存储需求(>200倍),并成功应用于UK Biobank队列的海马形状与白质微结构分析,分别鉴定出39个与275个新位点,揭示了影像内遗传力异质性以及与教育程度、精神分裂症等表型的遗传相关性,为大规模影像遗传学研究提供了高效解决方案。
在探索人类大脑奥秘的科学前沿,影像遗传学(Imaging Genetics)正扮演着越来越重要的角色。它如同一座桥梁,致力于连接基因组的微观变异与大脑结构和功能的宏观表现。通过磁共振成像等技术,科学家能以前所未有的精细度观察大脑,而全基因组关联分析则能系统筛查数百万计的遗传变异。当这两大领域结合,进行体素级全基因组关联研究(voxel-level genome-wide association studies, voxel-level GWAS)时,其潜力巨大——它有望在三维空间的每一个微小“像素”(体素)上定位影响大脑特征的遗传位点,从而精细绘制大脑的遗传蓝图。然而,这种高维度的探索也带来了巨大的挑战。想象一下,对全脑数万个甚至数十万个体素逐一进行GWAS分析,所产生的计算量与数据存储需求是天文数字,已成为制约该领域发展的主要瓶颈。如何从海量数据中高效、准确地提取有生物学意义的发现,是研究人员亟待解决的问题。
为此,一项发表于《Nature Communications》的研究提出了一种创新的解决方案。为了克服体素级GWAS中计算效率低下和存储负担过重的难题,研究人员开发了一种称为基于表征学习的体素级遗传分析框架。该研究的核心目标是创建一个既能大幅提升分析效率,又能增强统计发现能力,并支持丰富后续分析的计算方法。
为了开展这项研究,研究人员主要运用了几个关键技术方法。首先是提出了全新的RVGA(Representation learning-based Voxel-level Genetic Analysis)分析框架,其核心是通过表征学习对影像数据进行降噪和压缩表征。其次,研究利用了英国生物样本库的大规模队列数据,样本量n达到39,454,针对海马形状和白质微结构(White matter microstructure)两种重要的脑影像特征进行分析。最后,该框架还内置了统一的估计器,用于一次性估算体素遗传力、体素间遗传相关性以及体素与非影像表型间的跨性状遗传相关性。
研究结果显示,RVGA框架表现出了卓越的性能。在“RVGA显著降低了计算和存储需求”部分,研究发现,与传统方法相比,RVGA将计算时间和存储负担降低了超过200倍,实现了计算效率的飞跃。在“RVGA应用于海马形状识别出新的遗传位点”部分,将RVGA应用于UK Biobank的海马形状数据,成功揭示了39个新的遗传位点,这些位点与海马体的特定形态变异相关。在“RVGA揭示白质微结构的遗传结构”部分,对白质微结构的分析则发现了更为丰富的遗传信号,共鉴定出275个新的基因位点,深化了对白质遗传架构的理解。在“RVGA量化影像遗传力与遗传相关性”部分,研究利用框架中的统一估计器,发现了遗传力在脑影像内部并非均匀分布,而是存在显著的异质性。同时,研究成功量化了不同脑区之间的遗传关联,例如,发现了海马体与教育程度之间存在显著的遗传相关性,以及前放射冠与精神分裂症之间存在遗传相关性。在“RVGA促进可重复性研究与数据共享”部分,该框架通过生成并共享全基因组全影像关联的摘要统计量最小数据集,极大地便利了其他研究者进行二次分析和独立验证,推动了研究的可重复性和数据复用。
综上所述,这项研究成功开发并验证了RVGA这一高效、强大的影像遗传学分析框架。它不仅有效解决了大规模体素级GWAS中的计算瓶颈,还通过提升统计功效和提供丰富的遗传参数估计,发现了大量关于海马形状和白质微结构的新遗传位点。更重要的是,它揭示了大脑影像表型内部复杂的遗传力分布模式,并建立了特定脑区与精神分裂症、认知功能等复杂表型之间的遗传联系。这些发现不仅深化了我们对大脑结构与功能遗传基础的理解,也为未来大规模、多维度的生物医学研究提供了可推广的计算范式,具有重要的方法论意义和生物学价值。