ncFN:一个基于全球性和异质性生物分子网络的综合性非编码RNA功能注释框架
《Non-coding RNA Research》:ncFN: a comprehensive non-coding RNA function annotation framework based on a global and heterogeneous biomolecular network
【字体:
大
中
小
】
时间:2025年10月01日
来源:Non-coding RNA Research 4.7
编辑推荐:
非编码RNA(ncRNA)功能注释框架ncFN基于全局生物分子网络,整合PCG-PCG、ncRNA-PCG和ncRNA-ncRNA三种相互作用,通过随机游走重启(RWR)算法计算ncRNA与PCG的关联强度,结合基因集富集分析(GSEA)实现功能注释。相比现有方法,ncFN覆盖更广的ncRNA类型(miRNA、lncRNA、circRNA)和更大样本量,并在疾病相关功能富集和通路排名中表现更优,提供在线数据库及GitHub代码库。
非编码RNA(ncRNA)曾被认为是“垃圾”RNA,因为它们不编码蛋白质。然而,随着研究的深入,越来越多的证据表明,ncRNA在多种生物学过程中发挥着关键作用,例如基因调控、细胞分化以及疾病的发生发展。尽管如此,目前大多数ncRNA的功能仍然不明确,这限制了它们在生物医学研究中的应用。为了应对这一挑战,本研究提出了一种名为ncFN的新框架,用于对多种类型的非编码RNA进行系统性的功能注释。该框架基于一个全局且异质的生物分子网络(Global Interaction Network, GIN),整合了蛋白质编码基因(PCG)之间的相互作用、ncRNA与PCG之间的相互作用,以及不同类型的ncRNA之间的相互作用,从而实现了对ncRNA功能的全面解析。
ncFN的核心在于构建一个包含17,060个PCG和12,616个ncRNA的综合网络,其中涵盖了1,095个微小RNA(miRNA)、3,563个长非编码RNA(lncRNA)以及7,958个环形RNA(circRNA)。这一网络的构建依赖于多个权威数据库,如HumanCyc、KEGG、PANTHER、PID、Reactome等,这些数据库提供了丰富的PCG-PCG相互作用信息。此外,ncRNA与PCG之间的相互作用数据来源于starBase、LncRNA2Target和mirTarBase等数据库,而ncRNA-ncRNA之间的相互作用则主要来自LncBase、starBase和LncRNA2Target等。通过整合这些数据,ncFN不仅涵盖了多种ncRNA类型,还提供了比传统方法更广泛的功能注释范围。
在ncRNA功能注释方面,ncFN采用了一种基于随机游走与重启(Random Walk with Restart, RWR)算法的方法,用于量化ncRNA与PCG之间的关联强度(Association Strengths, ASs)。RWR算法通过模拟随机游走者在网络中的移动过程,计算出ncRNA对整个网络中其他节点(即PCG)的影响力。该算法的关键参数是重启系数(restart coefficient, r),它决定了游走者在探索局部关联与全局扩散之间的平衡。通过测试不同的r值,研究者发现当r设为0.2时,ncFN在三种ncRNA类型(miRNA、lncRNA和circRNA)的疾病通路排名上表现最佳。这一参数的选择确保了ncRNA功能注释的准确性和可靠性。
为了进一步验证ncFN的功能注释结果,研究者采用了两种主要方法:富集分析和疾病通路排名分析。富集分析通过比较ncFN预测的疾病相关ncRNA(PD_ncRNAs)与已知的疾病相关ncRNA(RD_ncRNAs)之间的重叠程度,评估其在疾病通路中的显著性。结果显示,ncFN在16种疾病中均对lncRNA的功能注释表现出显著的富集效应,覆盖率为100%。对于miRNA和circRNA,覆盖率为76%和56%。这表明ncFN在多种ncRNA类型的功能注释上具有较高的准确性和覆盖范围。此外,疾病通路排名分析显示,ncFN在所有三种ncRNA类型中均优于其他现有方法,其结果在统计学上具有显著性(p值小于0.05)。
ncFN不仅在功能注释上表现出色,还支持对多个ncRNA或通路进行富集分析。这种灵活性使得ncFN能够处理更复杂的生物学问题,例如在疾病研究中,同时分析多个差异表达的ncRNA与特定通路之间的关系。通过这种方式,ncFN不仅提供了单个ncRNA的功能预测,还能揭示多个ncRNA协同作用的机制,从而更全面地理解它们在疾病中的潜在作用。
为了方便研究人员使用,ncFN还构建了一个用户友好的在线数据库,该数据库基于Django框架开发,部署在Ubuntu服务器上,并通过NGINX和uWSGI进行优化。数据库采用MySQL作为数据存储系统,并结合结构化文件系统进行管理。为了提升用户体验,ncFN集成了前端组件,如jQuery、DataTables和Cytoscape,以实现更直观的数据可视化和交互功能。此外,ncFN还提供了Python包(如pandas和numpy)用于数据处理和分析,确保了其在计算上的高效性。
在实际应用中,ncFN的功能注释结果得到了多项研究的验证。例如,ncFN成功识别了miR-27a-3p与MAPK信号通路及胰腺癌之间的已知功能关联,同时也揭示了NEAT1与Wnt信号通路及结直肠癌之间的关系。此外,ncFN还能够全面捕捉circ-CPA4在非小细胞肺癌中的多种致癌作用。这些结果不仅证明了ncFN在功能注释上的准确性,也展示了其在不同生物学背景下的适用性。
尽管ncFN在功能注释方面表现出色,但研究者也指出了其存在的局限性。首先,ncFN的性能依赖于基础相互作用数据库的质量和完整性。虽然已经尽可能整合了实验验证的相互作用数据,但仍然存在不可避免的偏差,尤其是在circRNA方面,由于相关数据相对较少,可能导致注释结果的准确性受到影响。因此,未来的研究将致力于整合更全面的circRNA数据,并扩展更多来源的相互作用信息,以构建更加平衡和广泛适用的框架。其次,当前ncFN将网络中的边视为无向边,因为上游和下游的相互作用对于功能推断同样重要。然而,由于现有数据的不完整性,尚未对边进行加权处理。未来的研究计划在更多标准化和全面的数据集出现后,引入加权相互作用,以进一步提升模型的性能。此外,ncFN目前主要依赖于用户定义的参数,如重启系数和富集分析的p值截断点,这些参数可能会影响最终结果。因此,未来的研究将致力于减少参数依赖性,以提高注释的准确性。最后,ncFN当前主要基于KEGG通路进行功能注释,但也可以轻松集成其他功能资源,如Reactome、Gene Ontology和MSigDB等,以增强其在不同生物学背景下的适用性。
在功能注释的未来发展方面,研究者建议可以进一步整合多种类型的数据,例如单细胞或批量RNA测序数据,以构建特定细胞状态或细胞类型的网络,从而更准确地解析ncRNA在不同生物学环境中的功能。此外,尽管ncFN在功能预测方面表现出色,但进一步的实验验证仍然是必要的,以确认其预测的新型功能是否真实存在。通过实验验证,可以进一步提升ncFN的可信度,并推动其在生物医学研究中的应用。
总的来说,ncFN为非编码RNA的功能注释提供了一种全面、高效且可靠的计算框架。它不仅能够处理多种类型的ncRNA,还能通过整合全局的生物分子网络,揭示ncRNA在复杂生物学过程中的潜在作用。ncFN的开发为研究人员提供了一个强大的工具,用于识别与疾病相关的ncRNA,并进一步探索其在疾病机制中的作用。随着更多数据的积累和算法的优化,ncFN有望成为非编码RNA研究领域的重要资源,推动对ncRNA生物学功能的深入理解,并为疾病的诊断和治疗提供新的思路。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号