突破基因表达预测难题:精准解析人类组织异常基因表达

《Nature Communications》:

【字体: 时间:2025年03月30日 来源:Nature Communications

编辑推荐:

  在疾病研究中,异常基因表达至关重要,却缺乏预测算法。研究人员开展 “跨人类组织异常基因表达预测” 研究,构建基准数据集,开发 AbExp 模型。该模型性能优异,能助力疾病研究,为精准医疗提供关键支持。

  在生命科学领域,基因表达如同精密仪器上的刻度,精准调控着生命活动的每一个环节。一旦基因表达出现异常,就像仪器的刻度错乱,各种疾病便可能随之而来。肿瘤抑制基因的异常低表达、癌基因的异常高表达,是肿瘤发生的重要标志;许多罕见的遗传性疾病,也与异常基因表达紧密相连;甚至常见疾病的患病风险,也受其影响。然而,尽管异常基因表达在疾病中的作用如此关键,却一直缺少能够精准预测个体异常表达基因的算法。就好比在黑暗中摸索,缺少了一盏照亮方向的明灯,这严重阻碍了我们对疾病发生机制的深入理解,也限制了精准医疗的发展。
为了打破这一困境,德国慕尼黑工业大学(Technical University of Munich)等机构的研究人员踏上了探索之旅。他们聚焦于跨人类组织异常基因表达预测这一关键问题,开展了一系列深入研究。研究成果发表在《Nature Communications》杂志上,为该领域带来了新的曙光。

研究人员采用了多种关键技术方法。首先,利用基因型 - 组织表达数据集(GTEx v8)的 11,215 个 RNA 测序(RNA-seq)样本及配对的全基因组测序数据,创建了异常表达预测基准数据集。在数据处理过程中,运用 OUTRIDER 算法识别基因表达异常值,通过一系列严格的筛选标准,确定了 11,200 个低表达异常值,构建出用于模型训练和评估的高质量数据集。其次,整合多种变异注释信息,如 Ensembl VEP 注释的变异后果、LOFTEE 预测的功能丧失变异、CADD 的有害性评分等,并结合组织特异性的转录本异构体比例和基因表达变异性,训练出 AbExp 机器学习模型。此外,在验证模型性能时,使用了独立的线粒体疾病数据集和肌萎缩侧索硬化症(ALS)数据集进行分析;在研究 AbExp 对罕见变异关联测试和表型预测的影响时,利用了英国生物银行(UK Biobank)的 200k 外显子组数据。

研究结果


  1. 构建低表达异常值基准数据集:研究人员从 GTEx 数据集中精心筛选,创建了涵盖 49 个人类组织的低表达异常值基准数据集。他们对数据进行了多轮严格筛选,去除了测序深度不足、异常值数量过多等可能影响数据质量的样本,最终得到的数据集包含 3240 个基因和 10,999 个样本中的 11,200 个低表达异常值,这些数据为后续研究奠定了坚实基础。
  2. 整合变异注释预测低表达异常值:研究发现,虽现有变异注释工具并非专为预测异常低表达而设计,但像 LOFTEE 和 CADD 等工具仍有一定预测价值。不过,它们的预测能力有限。于是,研究人员整合多种变异注释信息训练出非线性模型,该模型在预测能力上显著优于单一工具,能更精准地预测低表达异常值。
  3. 考虑组织特异性提高预测准确性:基因的转录本异构体在不同组织中的表达比例存在差异,这使得变异对基因表达的影响具有组织特异性。例如,PSMB10 基因的不同转录本在成纤维细胞和壳核中的表达比例不同,导致同一变异在不同组织中的影响不同。基于此,研究人员通过计算组织特异性异构体组成,对变异注释进行加权,显著提高了模型预测的平均精度。同时,考虑基因表达变异性后,模型性能进一步提升。此外,整合异常剪接变体、核心启动子变体和结构变异等信息后,模型性能再次增强,最终得到的 AbExp 模型在预测异常低表达方面表现出色。
  4. AbExp 模型在独立数据集上的验证:研究人员在两个独立数据集(线粒体疾病数据集和 ALS 数据集)上对 AbExp 模型进行验证。结果表明,即使在缺少部分数据(如结构变异信息)的情况下,AbExp 模型仍能显著优于 LOFTEE 和 CADD,证明了其良好的泛化能力和有效性。
  5. AbExp 模型对有害变异的优先排序能力:研究人员利用 ClinVar 数据库和 gnomAD 数据库,评估 AbExp 模型识别有害变异的能力。结果显示,AbExp 模型在高精准度范围内区分致病性和良性变异的能力优于其他工具,并且在未在 gnomAD 中观察到的变异以及遗传约束基因中的变异富集分析中表现出色,表明它可作为有价值的变异优先排序算法。
  6. AbExp 模型改善罕见变异关联测试和表型预测:研究人员利用英国生物银行的 40 种血液性状数据,以线性回归为框架进行罕见变异关联测试(RVAT)。结果发现,使用 AbExp 预测能比基于 LOFTEE 的模型多识别 30% 的基因 - 性状关联,且在表型预测中,基于 AbExp 分数的模型能显著提高对极端表型个体的预测准确性,增加解释变异量(R2)。
  7. 整合临床可及组织 RNA - seq 数据提升预测性能:研究人员发现,临床可及组织(如皮肤成纤维细胞)的 RNA 测序数据对预测非临床可及组织的异常低表达具有重要价值。通过将 AbExp 分数与临床可及组织的基因表达测量相结合,预测性能可提高两倍,这为在临床诊断中利用易获取组织的数据预测难以获取组织的基因表达异常提供了新途径。

研究结论与讨论


研究人员成功构建了 49 个人类组织异常基因低表达预测的基准数据集,开发了 AbExp 模型。该模型通过整合现有变异注释、组织特异性基因表达变异性和转录本异构体组成等信息,在预测异常低表达方面表现卓越,平均精度比现有工具提高了 7 倍。在临床诊断中,AbExp 模型能有效优先排序有害变异,为疾病相关基因的识别和疾病因果变异的定位提供有力支持。在罕见变异关联测试和表型预测中,AbExp 模型也展现出显著优势,有助于更深入地理解基因与疾病的关系,为精准医疗提供更精准的基因注释信息。

不过,该研究也存在一些局限性。例如,AbExp 模型假设低表达异常值由罕见变异引起,未考虑常见变异组合的影响;未评估变异组合的情况,且无法覆盖长距离增强子区域的变异;模型输出为点估计,未提供不确定性估计;当前模型召回率有待提高,且对异常值的判断可能受测量误差等因素影响。此外,研究仅关注了顺式作用调控,未涉及反式作用基因调控。尽管如此,该研究为预测人类转录组中大变体效应的方法开发和验证提供了重要基础,有望推动相关领域进一步研究,帮助我们更深入地理解基因表达异常与疾病的关系,朝着精准医疗的目标迈出重要一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号