H2M:构建人类-小鼠基因变异“翻译词典”,加速疾病模型构建与功能研究
《Nature Biotechnology》:Computational prediction of human genetic variants in the mouse genome
【字体:
大
中
小
】
时间:2025年12月19日
来源:Nature Biotechnology 41.7
编辑推荐:
为解决物种间基因序列差异导致的人类疾病小鼠模型构建困难问题,研究人员开发了H2M(Human-to-Mouse)计算流程。该研究整合了同源基因比对与基因组编辑工具,构建了包含超过300万对变异映射的数据库,并设计了碱基编辑和引物编辑文库。该工具为系统性研究人类遗传变异在体内的功能提供了标准化、高通量的解决方案,显著提升了基因工程小鼠模型(GEMM)的构建效率与准确性。
在探索人类疾病奥秘的征途上,基因工程小鼠模型(Genetically Engineered Mouse Models, GEMMs)扮演着不可或缺的角色。它们凭借与人类高度的基因同源性,成为科学家们研究癌症等复杂疾病发病机制、筛选药物靶点以及评估治疗效果的“金标准”活体模型。然而,随着精准医学时代的到来,一个核心难题日益凸显:如何将人类身上发现的成千上万种致病基因变异,精准地“翻译”并“复刻”到小鼠的基因组中?
物种间的基因序列并非完全一致,这种差异使得直接将人类基因变异引入小鼠变得困难重重。例如,一个在人类基因中导致氨基酸改变的单核苷酸变异(SNP),在小鼠的同源基因中可能因为密码子差异,无法通过相同的DNA序列改变来实现。此外,非编码区的变异、复杂的插入缺失(Indel)等,都因序列背景不同而难以直接模拟。这种“翻译”的障碍,严重制约了科学家们利用小鼠模型来系统性地研究人类遗传变异的步伐。
为了打破这一瓶颈,来自麻省理工学院(MIT)和瑞士苏黎世联邦理工学院(ETH Zurich)的研究团队在《Nature Biotechnology》杂志上发表了一项突破性研究。他们开发了一个名为H2M(Human-to-Mouse)的高通量计算框架,旨在构建一个全面的人类-小鼠基因变异“翻译词典”,并利用基因组编辑技术,为构建精准的疾病模型提供一站式解决方案。
为了构建这一“翻译词典”,研究人员开发了H2M计算流程,该流程主要包含四个核心步骤:查询同源基因、比对野生型序列、模拟突变以及检查功能效应。研究团队整合了来自AACR-GENIE、COSMIC和ClinVar等权威数据库的数百万个人类临床变异数据,利用H2M进行系统性分析,生成了包含超过300万对变异映射的数据库。在此基础上,他们利用PEGG(Prime-Editing Guide Generator)工具,为其中4,944个癌症相关的变异对设计了碱基编辑和引物编辑的gRNA文库,构建了包含数万条gRNA的编辑资源库。此外,研究还利用AlphaMissense、SIFT 4G等工具对变异致病性进行预测,并利用NetMHCpan4.1EL工具预测了突变衍生新抗原的免疫原性。
研究团队利用H2M流程,对来自AACR-GENIE、COSMIC和ClinVar等数据库的数百万个人类临床变异进行了系统性分析。结果显示,H2M成功地将96%的输入人类基因映射到了小鼠同源基因上,并预测超过80%的人类变异可以在小鼠基因组中进行模拟。最终,他们构建了H2M数据库(版本1),这是一个包含3,171,709对人类-小鼠变异映射的“翻译词典”。
为了应对物种间序列背景的差异,H2M引入了一个名为“侧翼大小(flank size)”的灵活参数,用于定义突变位点两侧保守序列的长度。分析发现,50%的编码区突变侧翼大小不超过18个氨基酸,50%的非编码区突变侧翼大小不超过14个核苷酸。随着侧翼大小的增加,可模拟的变异比例会下降,这反映了H2M能够将分析限制在序列高度保守、功能可能更重要的区域。
为了将计算预测转化为实际的工程能力,研究团队利用H2M筛选了4,944个癌症相关的人类-小鼠变异对,并利用PEGG工具设计了相应的gRNA。他们构建了一个包含24,680条碱基编辑gRNA(针对4,612个突变)和48,255条引物编辑gRNA(针对9,651个突变)的数据库。这些文库不仅考虑了传统的SpCas9 PAM序列,还特别设计了NGN PAM的gRNA,并注释了NCN胞嘧啶碱基编辑gRNA,以确保与多种新型编辑器兼容。
为了验证H2M预测的生物学意义,研究人员以原癌基因KIT(小鼠中为Kit)为例进行了深入分析。他们发现,在KIT的跨膜结构域和细胞内激酶结构域等高度保守的区域,H2M能够模拟更高比例的人类错义突变。更重要的是,这些区域内的突变往往具有更高的AlphaMissense致病性评分,且人类与小鼠同源突变对的SIFT 4G致病性评分呈现出强相关性(Pearson相关性=0.91),这表明H2M能够识别出功能影响在物种间保守的变异。
研究团队进一步将H2M应用于免疫原性分析。他们从TSNAdb数据库中获取了642个经过实验验证的人类新抗原,并利用H2M预测其在小鼠中的同源肽段。结果显示,超过60%的肽段对在人类和小鼠中均被预测为能被至少一种MHC-I等位基因呈递。此外,通过反向分析小鼠肿瘤模型中的测序数据,H2M还成功预测了数千个潜在的人类新抗原,为利用小鼠模型进行新抗原发现和免疫治疗研究提供了新思路。
H2M的强大之处在于其物种无关性,可以轻松拓展到同源基因的分析。研究团队利用H2M分析了人类同源基因对(如SMARCA4和SMARCA2)中的突变,构建了一个包含10,211对同源突变对的目录。他们发现,SMARCA4和SMARCA2中的同源突变对在AlphaMissense致病性评分上具有显著相关性(Pearson相关性=0.93)。更令人兴奋的是,他们设计了一个包含超过52,000条独特gRNA的碱基编辑文库,其中包含574条gRNA,能够利用同一个gRNA和碱基编辑器,同时编辑50个基因中的175对独特的同源突变对,为研究同源基因的功能冗余和协同作用提供了强大的工具。
H2M计算框架的建立,将遗传信息的比对从静态的序列层面,延伸到了动态的序列改变层面。它不仅解决了如何将人类变异“翻译”到小鼠模型中的技术难题,更通过构建一个包含数百万对变异映射的数据库和相应的基因组编辑文库,为整个生物医学研究领域提供了一套标准化、高通量的解决方案。
这项研究的核心意义在于,它将计算生物学与基因组编辑技术紧密结合,极大地加速了从“发现变异”到“构建模型”再到“功能验证”的转化研究进程。通过H2M,研究人员可以快速、准确地设计出能够精确模拟人类疾病的小鼠模型,从而更深入地揭示遗传变异的致病机制,并为新药研发和个性化治疗策略的制定提供坚实的实验基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号