
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基因组嵌入自注意力神经动态解码器Ge-SAND:突破复杂疾病遗传互作解析与风险预测的深度学习新框架
【字体: 大 中 小 】 时间:2025年05月02日 来源:BMC Genomics 3.5
编辑推荐:
本研究针对复杂疾病遗传风险预测中难以捕捉大规模基因互作的挑战,开发了Ge-SAND(Genomic Embedding Self-Attention Neurodynamic Decoder)框架。通过整合基因组位置信息与自注意力机制,该模型在克罗恩病、精神分裂症和阿尔茨海默病数据集上实现AUC-ROC提升达20%,同时揭示ISOC1-HOMER2等新型互作基因对,为脑-肠轴机制研究提供新视角。这项发表于《BMC Genomics》的工作为精准医疗提供了兼具预测精度与生物学解释性的创新工具。
在基因组医学时代,复杂疾病的遗传机制解析仍面临"遗传力缺失"困境。传统全基因组关联分析(GWAS)虽已鉴定大量单核苷酸多态性(SNP),但仅能解释有限表型变异,而基因-基因互作(G×G)的复杂网络被认为是关键突破口。现有方法如逻辑回归和随机森林难以同时实现大规模互作检测与生物学解释,尤其当涉及106级SNP组合时,维度灾难使传统统计方法举步维艰。
中山大学研究团队在《BMC Genomics》发表的研究中,开创性地将自然语言处理领域的自注意力机制(self-attention)引入基因组学,开发出Ge-SAND框架。该模型通过三大创新突破技术瓶颈:首创染色体感知的基因组嵌入(Genomic Embedding)策略区分染色体内/间互作;设计多头自注意力模块并行处理106级SNP组合;引入双子神经动态学习网络(GNLN)防止小样本过拟合。在模拟数据和英国生物银行(UK Biobank)三大疾病队列中,模型不仅预测性能超越主流方法,更通过注意力矩阵解析出ISOC1-HOMER2等新型互作基因对,首次提示脑-肠轴可能在克罗恩病与阿尔茨海默病中发挥桥梁作用。
关键技术方法包括:基于千人基因组计划EUR群体模拟六种基因型-表型关系(线性/二次/三次模型及其组合);对UK Biobank的克罗恩病(1,194例)、精神分裂症(1,516例)和阿尔茨海默病(4,244例)数据进行质控和连锁不平衡修剪;采用染色体编码+位置嵌入的混合表征方法;通过1,000次排列检验验证注意力分数显著性;使用蒙特卡洛法计算基因对功能富集经验p值。
研究结果呈现三大发现:
讨论部分指出,Ge-SAND的突破性在于首次实现:1)通过自注意力权重量化SNP互作强度;2)揭示脑-肠轴基因在跨疾病中的共现规律;3)开发适应长序列基因组数据的动态学习算法。局限性在于当前样本量对罕见变异检测不足,且注意力机制的计算复杂度随SNP数量呈平方增长。未来工作将整合单细胞测序数据,并开发稀疏注意力机制以处理百万级SNP。这项研究为复杂疾病"暗物质"遗传架构的解析提供了新范式,其"预测-解析"双功能设计有望推动精准医疗从统计学关联向机制认知跨越。
生物通微信公众号
知名企业招聘