
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Cluefish:基于生物先验知识增强的过表达分析挖掘转录数据"暗物质"的创新工作流程
【字体: 大 中 小 】 时间:2025年07月31日 来源:NAR Genomics and Bioinformatics 2.8
编辑推荐:
本研究针对转录组数据系列分析中功能富集方法的局限性,开发了Cluefish工作流程。该R语言工具通过预聚类蛋白互作网络进行过表达分析,结合生物先验知识整合,显著提高了低剂量生物效应检测灵敏度。应用案例显示,该方法能识别传统方法遗漏的视黄酸信号通路等关键通路,为环境毒理学研究提供了新视角。
在当今组学技术飞速发展的时代,科学家们能够全面测量生物样本中的DNA、RNA、蛋白质和代谢物,这为揭示新的生物学功能、基因型-表型关系和阐明分子机制提供了宝贵资源。然而,海量数据带来的分析和解读挑战也日益凸显。特别是在转录组学领域,分析产生的庞大转录列表使得手动文献查阅变得不切实际,功能富集分析(也称为通路富集分析)因此成为标准方法。这种方法将大型基因列表浓缩为更易管理和解释的生物学功能或通路集合,但其在分析涉及多个有序条件(称为"数据系列")时仍面临重大挑战。
法国洛林大学(Université de Lorraine)CNRS LIEC实验室的研究团队在《NAR Genomics and Bioinformatics》上发表了一项创新研究,开发了名为Cluefish的工作流程。这个免费开源、半自动化的R工作流程专为转录组数据系列的全面生物学解释而设计,通过预聚类蛋白-蛋白互作网络(PPI)进行过表达分析(ORA),利用集群作为锚点识别更小、更特异的生物功能。其创新特性包括基于共享生物背景的集群合并和孤立基因回收,实现了对数据的更完整探索。
研究团队采用了几项关键技术方法:1)使用DRomics R包进行剂量反应(DR)分析,识别显著失调的转录本并建立DR模型;2)通过STRING数据库构建和聚类PPI网络;3)应用g:Profiler进行集群特异性功能富集分析;4)开发创新的"孤独基因"回收算法;5)整合多源生物数据库(GO、KEGG、WikiPathways)信息。研究以斑马鱼胚胎暴露于邻苯二甲酸二丁酯(DBP)剂量梯度的内部数据集为主,并验证于两个已发表数据集(大鼠肝脏暴露于全氟辛酸和杨树根暴露于菲)。
研究结果部分,"剂量反应分析"显示,在斑马鱼、大鼠肝脏和杨树根数据集中,分别检测到41,396、2,654和34,699个转录本。大多数失调特征在剂量梯度上表现出单调趋势(斑马鱼93%,大鼠肝脏79%,杨树根60%),少数呈现钟形或U形趋势。
"方法比较"部分显示,Cluefish相比标准方法显著提高了分析灵敏度。在斑马鱼数据集中,标准方法仅识别出12个GO生物过程(GO:BP)、6个KEGG和2个WikiPathways(WP)生物功能,涉及320个基因;而Cluefish不仅全部识别出这些功能,还额外发现45个KEGG和8个WP通路,以及36个独特的GO:BP术语,共纳入733个额外基因(占失调基因列表的30%)。类似优势在大鼠肝脏和杨树根数据集中也得到验证。
"斑马鱼数据集探索"部分详细展示了Cluefish的应用成果。从AnimalTFDB4数据库中检索到3,328个已知斑马鱼转录因子(TF)和转录辅因子(CoTF)对应的Ensembl基因。在2,365个失调基因中,286个被鉴定为编码这些转录调节因子。PPI网络构建和马尔可夫链聚类(MCL)形成204个集群,经大小过滤后保留53个集群包含399个基因。集群特异性ORA鉴定出41个驱动GO:BP、51个KEGG和10个WP富集功能。通过集群合并和"孤独基因"回收,最终形成45个集群(44个扩展集群+孤独集群),使参与功能富集的基因达到1,026个(占失调基因列表的43%)。
研究特别关注了四个最敏感集群中的三个(#43、#10和#15)。集群#43包含9个不同转录本和基因,主要富集"视黄醇代谢"(KEGG:00830)通路。集群#10包含16个转录本,主要富集鞘脂代谢功能。集群#15包含31个转录本,主要富集脂质生物合成过程。这些发现提示DBP暴露可能导致视黄酸(RA)信号通路破坏,进而影响斑马鱼胚胎发育。
在讨论部分,研究人员强调Cluefish是首个将DR建模与预聚类网络功能富集相结合的工作流程。该方法不仅创建了具有生物学意义的集群,还通过剂量反应分析获得了敏感性和趋势特征。通过集群合并和孤独基因回收等创新特性,Cluefish为用户提供了更全面的转录组数据集解读工具。在环境毒理学应用中,该方法成功识别出传统方法遗漏的视黄酸信号通路,提示这可能是斑马鱼发育过程中对DBP最敏感的途径,可能导致形态学变化。这一发现为理解DBP的作用模式提供了新视角,超越了以往主要关注PPAR信号通路的研究局限。
这项研究的创新价值在于:1)开发了专门针对转录组数据系列分析的新工具;2)提高了低剂量生物效应检测的灵敏度;3)揭示了环境污染物作用的新机制;4)为未来研究提供了可扩展的分析框架。虽然当前工作流程仍存在一些局限,如对STRING PPI数据的依赖和半自动化特性,但其在毒理学、发育生物学和环境科学等领域已展现出重要应用潜力。随着组学数据的持续增长和生物注释资源的不断完善,Cluefish这类整合多源信息的分析工具将变得越来越重要。
生物通微信公众号
知名企业招聘