基于泛癌关联模式预测微小 RNA 靶基因:解锁基因调控新奥秘

【字体: 时间:2025年02月10日 来源:BMC Genomics 3.5

编辑推荐:

  为解决已知 miRNA 靶基因数据库覆盖不足的问题,研究人员开展 “预测未报道的 miRNA 靶基因” 主题研究。利用 TCGA 数据构建机器学习模型,部分预测得到验证。该研究为揭示 miRNA - 基因关系提供新框架,助力理解 miRNA 介导的基因调控。

  在生命的微观世界里,基因调控就像一场精密的交响乐,而微小 RNA(MicroRNAs,miRNAs)则是其中至关重要的指挥家。miRNAs 是一类小的非编码 RNA,在基因表达的转录后调控过程中扮演着关键角色。它们通常通过与信使 RNA(mRNA)的 3’非翻译区互补结合,使 mRNA 降解或抑制其翻译,从而沉默靶基因 。但近年来也有研究发现,在某些情况下,miRNAs 还能激活基因表达,其作用机制十分复杂。
miRNAs 在众多生物学过程中发挥着多样的调节功能,与人类疾病的关系也极为密切。例如,它们参与调控与癌症相关的重要信号通路,像 PI3K - Akt 和 MAPK 通路,因此成为极具潜力的治疗靶点。目前,研究人员已经通过实验确定了许多 miRNA - 基因关系,并建立了诸如 miRBase、DIANA - TarBase 和 miRTarBase 等数据库,这些数据库提供了大量关于 miRNAs 及其靶基因的信息。然而,由于 miRNA - 基因调控的复杂性,现有数据库很可能只是冰山一角,大量的 miRNA - 基因关系仍有待挖掘。

为了探索这些未知的关系,来自佐治亚理工学院(Georgia Institute of Technology)和埃默里大学(Emory University)的研究人员 Shuting Lin 和 Peng Qiu 开展了一项重要研究,相关成果发表在《BMC Genomics》上。

研究人员运用了多种关键技术方法来开展此项研究。首先,从癌症基因组图谱(The Cancer Genome Atlas,TCGA)获取 miRNA 和基因表达数据,涵盖了 32 种癌症类型、10,004 名患者,共计 1,881 种 miRNAs 和 20,530 个基因。同时,从 5 个不同数据库收集已有的 miRNA 靶基因信息。接着,对每个癌症类型中 miRNA 和基因的表达数据进行 Pearson 相关性分析,将相关性作为描述 miRNA - 基因对的特征 。最后,利用 XGBoost 算法构建机器学习模型进行二元分类,预测潜在的 miRNA - 基因关系。

下面来看具体的研究结果:

  • 构建 miRNA - 基因预测模型:研究人员以 miRNA 和基因表达数据的相关性作为特征描述 miRNA - 基因对。计算 32 种癌症类型中每个 miRNA - 基因对的相关性时,仅在表达该 miRNA 和基因的患者数超过 10 例的情况下进行计算,最终得到 22,580,364 个 miRNA - 基因对的相关性值。从 5 个现有数据库收集已知的 miRNA - 基因关系来定义正负样本,其中正样本仅占 0.12%,存在严重的类别不平衡问题。为此,研究人员运用 XGBoost 算法对下采样后的数据进行训练,生成多个不同比例下采样的负样本集进行模型训练。
  • 验证已识别的 miRNA - 基因对:在每个下采样水平,使用 1000 个训练好的预测模型对负样本中的 miRNA - 基因对进行预测,将至少在 1000 次预测中被 700 次以上判定为正样本的 miRNA - 基因对定义为 “显著 miRNA - 基因对”。利用两个未参与训练和预测过程的 miRNA 靶基因数据库进行验证,发现在下采样率为 5%、预测频率要求为 950 时,871 个 miRNA - 基因对被持续预测,验证率最高达 3.21%。此外,通过文献调研,又为 843 个未被数据库验证的 miRNA - 基因对中的 20 个找到了支持性文献。
  • 在独立数据集上验证已识别的 miRNA - 基因对:研究人员从基因表达综合数据库(Gene Expression Omnibus,GEO)收集了 9 个数据集,这些数据集包含特定 miRNA 扰动前后的基因表达数据。在这些数据集中,共验证了 88 个不同癌症背景下的 miRNA - 基因对,涉及 5 种 miRNAs。通过差异表达分析确定受 miRNA 扰动后显著变化的基因(差异表达基因,Differentially Expressed Genes,DEGs),并将其与预测的 miRNA 靶基因进行比较。结果发现,研究人员预测的 miRNA 靶基因与已知靶基因与 DEGs 的重叠比例相似,且与其他 5 种已有的预测工具相比,预测性能相当。进一步分析 miRNA 与靶基因的相关性方向和调控方向,发现 45% 的 miRNA - 基因对在验证数据集中的差异表达方向与在 TCGA 分析中的相关性方向一致。

在研究结论和讨论部分,研究人员成功构建了机器学习模型来预测未报道的 miRNA 靶基因,在 871 个预测的显著 miRNA - 基因对中,5.5% 通过独立的 miRNA 靶基因数据库和文献调研得到验证,其余的可作为未来实验验证的假设。此外,通过分析多个独立数据集中特定 miRNA 扰动前后的基因表达谱,发现预测的 miRNA - 基因对的相关性方向与调控模式基本一致。尽管该研究存在一定局限性,如已知 miRNA - 基因相互作用的数据有限,导致模型存在偏向性,但研究人员通过数据下采样等方法进行了优化。总的来说,该研究引入了一种新方法来发现未报道的 miRNA - 基因关联,为深入理解 miRNA - 基因相互作用提供了新视角,对 miRNA 调控机制的研究和相关疾病的治疗具有重要的意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号