编辑推荐:
为解决现有 lncRNA 亚细胞定位预测方法的不足,研究人员开展 MGBLncLoc 模型相关研究,结果显示该模型性能优异。此研究为预测 lncRNA 亚细胞定位提供新方案,强烈推荐科研读者阅读,助您了解前沿进展。
在神秘的细胞世界里,有一种叫做长链非编码 RNA(lncRNA)的 “小精灵”,它虽然不能像一些 RNA 那样参与蛋白质的翻译工作,却在细胞的各种活动中发挥着至关重要的作用。它与基因表达调控、细胞周期调控、细胞分化,甚至肿瘤的发生都有着千丝万缕的联系,异常的 lncRNA 表达还和多种疾病的发生发展密切相关,因此成为了当下生物医学研究的热门领域。
然而,想要深入了解 lncRNA 这个 “小精灵” 可不容易。研究人员发现,它在细胞内的 “居住地点”,也就是亚细胞定位,对其发挥功能有着重要影响。打个比方,lncRNA 就像是细胞里的 “小助手”,不同的 “工作地点” 决定了它能做什么样的 “工作” 。可目前研究 lncRNA 的亚细胞定位面临着重重困难。传统的湿实验技术,比如单分子荧光原位杂交(smFISH)技术,虽然能准确找到 lncRNA 在细胞里的位置,但它成本高、耗时长,操作起来也特别复杂,就像是用一把高精度但又特别难操作的 “手术刀”,让研究人员有些 “望而却步”。荧光原位测序(FISSEQ)技术呢,虽然结合了原位杂交和高通量测序技术,能在亚细胞分辨率下进行有效的分子计数,可又受到大量高表达 lncRNA 的限制,无法大展身手。
面对这些难题,研究人员急需找到新的办法。于是,他们把目光投向了计算方法。这些年,大家提出了不少预测 lncRNA 亚细胞定位的计算方法,大致可以分为传统基于特征的方法、基于深度学习的方法和混合方法这三类。不过,现有的这些方法都存在一些 “小毛病”。大多数方法在编码原始 lncRNA 序列时,只是简单地使用 k - mer 特征,这样做就像是只看了 “小精灵” 的部分特征,却忽略了它序列的顺序信息和核苷酸的位置特异性分布信息,导致预测的准确性和通用性都不太理想。
为了解决这些问题,来自 作者[第一作者单位] 的研究人员在《BMC Biology》期刊上发表了一篇名为《MGBLncLoc: a deep learning framework for long non - coding RNA subcellular localization prediction based on multi - class nucleotide distribution - based generalized encoding》的论文。他们通过一系列研究,成功开发出了一种全新的深度学习框架 ——MGBLncLoc,就像是给研究 lncRNA 亚细胞定位打造了一件 “秘密武器”。这个框架表现十分出色,在准确性、F1 评分和 AUC(曲线下面积,用于评估模型性能,值越接近 1 表示模型性能越好)等方面都超越了现有的模型,为预测 lncRNA 亚细胞定位提供了更可靠的方法,这对于深入研究 lncRNA 的功能和调控机制有着重要意义。
研究人员在这项研究中用到了几个关键的技术方法。首先是数据集的构建,他们从 RNALocate 2.0 数据库下载了已知的 lncRNA 亚细胞定位序列,经过一系列筛选和处理,最终得到了用于实验的数据集。接着,他们提出了一种新的编码方法 —— 基于多类修饰核苷酸密度的归一化差分位置感知 k - mer 编码(MCD - ND),这种方法能够更好地捕捉核苷酸的位置分布信息。最后,他们利用多种深度学习神经网络算法,构建了包含特征增强模块、多尺度卷积神经网络(CNN)模块、双向门控循环单元(BiGRU)模块和分类模块的 MGBLncLoc 模型。
下面我们来看看研究人员都有哪些重要的发现。
1. 编码器参数对模型性能的影响
研究人员知道,编码器的参数会影响模型的性能,就像不同的 “设置” 会让 “秘密武器” 发挥出不一样的威力。MCD - ND 编码主要和序列中 k - mer 的数量和长度有关。为了找到最合适的参数,他们把原始数据按照不同长度进行划分,然后针对不同的 k - mer 组合建立模型,并通过十折交叉验证来优化模型的超参数。结果发现,当 k - mer 长度为 3 - mer,序列长度为 221bp 时,模型的性能最佳。这就好比给 “秘密武器” 找到了最适合它的 “装备”,让它能更好地发挥作用。
2. 不同特征编码方法对模型性能的影响
特征编码方法就像是给 “秘密武器” 提供不同的 “视野” 来看待 lncRNA 序列。研究人员把 MCD - ND 编码和其他常见的编码方法进行对比,像 One - hot 编码、NCP 编码、DPCP 编码、基于 K - mer 频率的编码以及 Word2Vec 编码等。他们让模型分别学习这些编码方法提取的特征,结果发现,MCD - ND 编码的模型表现最为出色。它的宏平均召回率达到了 67.3%,宏平均准确率为 67.2%,都超过了其他编码方法。这说明 MCD - ND 编码能够捕捉到更独特的特征,帮助模型更好地识别 lncRNA 的亚细胞定位。
3. 消融实验
为了搞清楚模型里不同模块和网络层的作用,研究人员进行了消融实验。他们把模型拆分成 5 个不同的版本,分别是基于 CNN 的基础模型(Base)、结合 MDTA 模块和 CNN 的模型(MDTA - Base)、结合 CNN 和 BiGRU 的模型(BiGRU - Base)、结合 MDTA 和 GDFN 模块与 CNN 的模型(MDTA - GDFN - Base),还有完整的 MGBLncLoc 模型(MDTA - GDFN - BiGRU - Base)。实验结果显示,随着模块的增加,模型识别 lncRNA 亚细胞定位的能力逐渐增强,MGBLncLoc 模型在所有评估指标上都表现最佳。这表明这个模型的各个模块相互配合,就像一个团队里的不同成员,共同发挥作用,让模型能够更准确地判断 lncRNA 的 “居住地点”。
4. 与现有预测模型的比较
研究人员还把 MGBLncLoc 模型和现有的先进亚细胞定位预测模型进行了比较。考虑到不同数据集可能会影响模型的识别结果,他们用 RNALocate v1.0 数据库对 MGBLncLoc 模型进行重新训练,然后和其他模型对比。结果发现,MGBLncLoc 模型在宏平均召回率、宏平均 F1 评分和宏平均准确率等方面都超过了其他模型,这进一步证明了这个模型的优越性,它就像是预测 lncRNA 亚细胞定位领域的 “佼佼者”。
5. 基序分析
为了找出 lncRNA 序列中的 “隐藏密码”,研究人员利用 MUSCLE 工具和概率基序可视化工具 kplogo 进行分析。他们比较了细胞核、细胞质、细胞溶质和核糖体中的 lncRNA 序列,发现了一些保守区域和共同模式。比如在细胞核中,有两个 AGCCC 基序和其他亚细胞定位的序列有明显差异,而且细胞核 lncRNA 序列中最常见的 3 - mer 是 ANA 和 TNT(N 代表任意核苷酸),而细胞质的 3 - mer 频率没有明显差异。这说明提取 3 - mer 频率特征可以有效区分不同的亚细胞定位,也证明了 MCD - ND 特征编码能够增强模型识别亚细胞定位的能力。
6. 模型特征解释
研究人员还利用 SHAP 值对 MGBLncLoc 模型进行了深入分析,就像是给模型做了一次 “体检”,看看它是如何做出预测的。结果发现,3 - mer 和 221bp 的 MCD - ND 特征对模型的贡献最大,这些特征值的增加会对模型的预测结果产生积极影响。而且通过对特征之间相互作用的分析,发现 3 - mer 和 221bp 的特征具有很强的判别能力和有效性,这也解释了为什么这个模型能够更有效地识别 lncRNA 的亚细胞定位。
总的来说,研究人员提出的 MGBLncLoc 模型为预测 lncRNA 亚细胞定位带来了新的希望。它通过独特的 MCD - ND 编码和巧妙组合的深度学习模型,成功解决了一些现有方法存在的问题,在预测性能上有了很大的提升。不过,这个研究也存在一些局限性。目前研究主要基于单亚细胞定位的 lncRNA 序列,忽略了很多 lncRNA 多亚细胞定位的情况;RNALocate 数据集的样本分布不均匀,可能会导致模型有偏差;模型还没有在其他类型的 RNA 上进行评估;而且模型学习到的特征和生物学意义之间的关系还需要进一步探索。
但这并不妨碍 MGBLncLoc 模型的重要意义。它为后续研究提供了一个很好的基础,让研究人员对 lncRNA 的亚细胞定位有了更深入的认识。未来,研究人员可以针对这些局限性进行改进,比如收集更多多定位的 lncRNA 数据,优化数据集的平衡性,探索模型在其他 RNA 类型上的应用,以及深入研究模型特征的生物学意义。相信在大家的共同努力下,我们对 lncRNA 这个 “小精灵” 的了解会越来越深入,也能更好地利用它来为生物医学研究服务,说不定未来还能在疾病治疗等方面取得新的突破呢!