
-
生物通官微
陪你抓住生命科技
跳动的脉搏
自闭症谱系障碍中新生非编码变异的基因表达-序列-性别整合分析揭示突触相关通路关联
【字体: 大 中 小 】 时间:2025年06月05日 来源:Genome Biology 10.1
编辑推荐:
为解决自闭症谱系障碍(ASD)中非编码变异的生物学机制难题,加州大学洛杉矶分校团队通过整合基因表达、序列信息和性别差异,开发了ENSAS(Expression Neighborhood Sequence Association Study)分析框架。研究发现,男性患者-女性同胞配对的上游变异中局部GC含量可解释此前深度学习模型识别的关联信号,并鉴定出突触相关基因集的显著富集。该成果简化了复杂模型的解释,为ASD非编码变异研究提供了新范式,发表于《Genome Biology》。
自闭症谱系障碍(ASD)的遗传学研究长期聚焦于编码区变异,但占基因组98%的非编码区域仍如同"暗物质"般难以解读。随着全基因组测序(WGS)技术的普及,Simons Simplex Collection(SSC)队列中数千个家庭的新生(de novo)变异数据为破解非编码变异的功能提供了契机。然而,此前研究依赖复杂的深度学习模型(如疾病影响评分DIS),其生物学解释性差,且信号是否真实反映疾病关联存疑。更棘手的是,ASD存在显著的性别偏倚——男性患病率是女性的4倍,但性别因素在非编码变异分析中常被忽视。
加州大学洛杉矶分校的Runjia Li和Jason Ernst团队通过系统性分析发现,简单的局部GC含量指标竟能复现深度学习模型预测的ASD关联信号。进一步研究发现,该信号特异性地存在于男性患者-女性同胞配对的上游基因变异中,且与脑组织差异表达基因相关。为深入解析这一现象,研究者创新性开发了ENSAS框架,整合ARCHS4数据库超过8万个人类RNA-seq样本的基因共表达网络与k-mer序列分析,在突触相关通路中发现了稳健的关联信号。
关键技术包括:1)基于SSC队列的1,271个家庭WGS数据筛选新生非编码变异;2)利用GTEx和Geneshot数据库构建基因表达相关性网络;3)开发ENSAS算法整合k-mer(1-7bp)序列特征与表达邻域分析;4)采用Roadmap Epigenomics计划的98个表观基因组注释解析染色质状态贡献。
局部GC含量解释深度学习模型的关联信号
通过分析127,140个新生变异,发现DNA-DIS和RNA-DIS与201bp窗口的GC含量高度相关(Spearman相关系数分别达0.72和0.57)。调整GC含量后,此前报道的脑组织差异表达基因关联信号消失,提示深度学习模型可能捕获了GC相关的序列偏倚。
性别与基因组位置的交互效应
在男性患者-女性同胞配对中,上游变异(距TSS<100kbp)显示出最强的脑组织关联(前扣带回皮层p=3.3×10-6
),而下游变异无显著信号。该效应在男性患者-男性同胞配对中完全消失,且与蛋白质截短变异(PTV)的分布模式无关。
ENSAS揭示突触通路特异性
对12,293个男性-女性上游变异分析发现,28个基因邻域通过Bonferroni校正(如OPCML基因邻域p=1.3×10-7
)。这些邻域显著富集突触(p=5.8×10-54
)和细胞连接相关功能,且比GTEx脑组织基因集更具特异性。
染色质状态预测GC差异
在最强关联的OPCML邻域中,胎儿和成纤维细胞表观组的染色质状态可解释50.2%的GC含量差异。静止状态(Quies)在同胞变异中富集(-9.2%),而活跃转录状态(Tx)和双价增强子状态(EnhBiv)在患者中富集,提示发育相关的染色质环境可能影响突变分布。
这项研究颠覆了"复杂模型才能解析非编码变异"的认知,证明局部GC含量与性别、基因组位置的交互效应可解释大部分ASD关联信号。ENSAS框架的建立为其他复杂疾病研究提供了新思路,其发现的突触通路特异性与既往ASD编码变异研究形成呼应。值得注意的是,胎儿表观组的显著预测力暗示子宫内发育环境可能通过染色质状态影响突变发生率,为ASD的性别差异机制提供了新视角。未来需要在更大队列中验证这些发现,并探索GC含量差异背后的生物学驱动因素。
生物通微信公众号
知名企业招聘