BeetleAtlas 2:增强版赤拟谷盗(Tribolium castaneum)组织与发育转录组学网络资源及其对基因预测精度的完善

《PLOS Computational Biology》:BeetleAtlas 2: An enhanced Tribolium castaneum web resource for tissue and developmental transcriptomics allowing refinement of gene predictions

【字体: 时间:2026年06月02日 来源:PLOS Computational Biology 3.6

编辑推荐:

  摘要:BeetleAtlas是一个提供赤拟谷盗(Tribolium castaneum)组织特异性及发育阶段特异性转录组数据的在线资源。在从原始Tcas5.2基因组组装更新至改进的icTriCast1.1基因组组装过程中,研究人员发现两套主流基因模型——OGS

  
摘要:BeetleAtlas是一个提供赤拟谷盗(Tribolium castaneum)组织特异性及发育阶段特异性转录组数据的在线资源。在从原始Tcas5.2基因组组装更新至改进的icTriCast1.1基因组组装过程中,研究人员发现两套主流基因模型——OGS3(Official Gene Set 3)与NCBI RefSeq基因集之间存在重大差异,且任一套均无明显优势。为此,研究人员开发了BeetleAtlas 2(beetleatlas.org),采用双平行"模式(mode)"设计:分别整合基于NCBI基因模型和OGS3基因模型的查询结果,并对存在等价基因模型的情况(占50%–57%)提供直接比对。为辅助解决两套基因模型的分歧并验证结果,基因模型关联至UCSC Genome Browser中定制的RNA-seq读段覆盖度可视化视图,展示来自22种组织和生活阶段的读段叠加于icTriCast1.1基因组上;参考轨道包含NCBI基因模型、经坐标转换自Tcas5.2组装的OGS3基因模型,以及1050个 discontinued(终止注释)的旧版NCBI基因模型。研究人员展示了如何利用不同组织表达模式确认两套基因集对应关系、解决分歧、修正错误及鉴定当前基因集中缺失的推定基因或外显子。BeetleAtlas 2可帮助赤拟谷盗研究人员在设计特定基因实验及解读结果时规避错误基因模型带来的陷阱,并为未来建立修订版赤拟谷盗基因集发挥作用。
论文解读:《BeetleAtlas 2: An enhanced Tribolium castaneum web resource for tissue and developmental transcriptomics allowing refinement of gene predictions》发表于《PLOS Computational Biology》
研究背景与问题提出
赤拟谷盗(Tribolium castaneum)是昆虫功能基因组学的重要模式生物,广泛用于发育遗传学、生理学和群体生态学研究。其基因组先后发布了Tcas5.2组装及配套的OGS3(Official Gene Set 3,基于AUGUSTUS预测)注释,以及NCBI RefSeq注释(基于Gnomon预测)。早期BeetleAtlas数据库基于Tcas5.2+OGS3构建,提供22种组织/发育阶段的FPKM表达谱并与iBeetle-Base互联。2023年发布的改进版基因组组装icTriCast1.1(基于PacBio Sequel长读长测序,GCF_031307605.1)伴随新版NCBI基因集发布。研究人员在尝试将OGS3映射至新组装并匹配新NCBI基因集时发现:①仅有不到60%的基因能建立明确的一一对应关系;②NCBI与OGS3基因模型在基因边界、外显子划分、合并或拆分基因等方面存在大量分歧,且任一方均非全面优于另一方——例如OGS3可能遗漏某些基因而NCBI可能错误合并或拆分。若仅采用单一注释将误导用户对目标基因的实验设计和表达解读。因此,研究人员重新设计并发布了BeetleAtlas 2,采用双模式并行架构,并深度整合定制化的UCSC Genome Browser RNA-seq可视化,以帮助使用者甄别与解决基因模型分歧。
主要关键技术方法
研究人员将原有基于Tcas5.2组装+OGS3注释的RNA-seq比对及FPKM(Fragments Per Kilobase of transcript per Million mapped reads)定量结果保留作为"OGS3模式"数据库;另将相同RNA-seq数据重新比对至icTriCast1.1基因组及NCBI注释,用Tuxedo流程重新计算FPKM构建"NCBI模式"数据库(MySQL)。两套数据库均新增直肠与围直肠管组织数据,排除线粒体转录本及小RNA(miRNA/siRNA等,因100 bp读段无法检出),并纳入果蝇(Drosophila)直系同源及赤拟谷盗旁系同源信息(OrthoFinder、EggNOG、Ensembl BioMart)。等价基因对通过双向BLAST比对蛋白、mRNA及CDS序列确定,仅保留三方一致的唯一配对(共8391对,占NCBI蛋白编码基因57%,OGS3的50%)。OGS3基因模型坐标用Liftoff从Tcas5.2转换至icTriCast1.1生成bigBed自定义轨道; discontinued(终止注释)的旧版NCBI基因模型(1050个)同样经Liftoff转换并加入数据库。组织特异性RNA-seq BAM文件合并、降采样后用bam_to_bigwig转为bigWig格式作为UCSC自定义覆盖度轨道。Web端用Java Servlet+Tomcat动态生成双模式页面,点击链接唤起带自定义bigWig/bigBed轨道参数的UCSC Genome Browser视图。
研究结果
Examining gene models in the UCSC genome browser: Strategy(UCSC基因组浏览器中检查基因模型:策略)
研究人员用示意图说明如何依据RNA-seq覆盖形态区分"单基因含内含子(两区有锐利'cliff-edge'中断,符合剪接体切除内含子)"与"相邻两独立基因(各区5′/3′端呈渐进衰减,且无跨区连续覆盖)",以及组织特异性分别表达两区支持两基因模型的情形。锐利截断(cliff-edge)是内含子–外显子交界的特征性诊断标志,而独立基因末端呈梯度下降。据此原则可在UCSC视图中判断NCBI与OGS3分歧何者更符合实测转录本。
Examining gene models in the UCSC genome browser: Examples(UCSC基因组浏览器中检查基因模型:实例)
展示五个真实案例:(A) NCBI单基因模型(含额外外显子)获female gonad中具cliff-edge的reads支持,OGS3拆分为两基因不符;(B) NCBI预测两基因、OGS3一基因,reads在两区呈渐变衰减且无跨区覆盖,支持NCBI两基因模型;(C)两区分别在male gonad与adult brain表达,强支持两基因模型;(D) OGS3两基因、NCBI一基因,reads显示NCBI模型不符且提示OGS3某基因缺一个外显子、另一基因前两外显子无覆盖;(E) NCBI单转录本被larval head强烈支持,OGS3其一模型不符另一可能代表可变剪接异构体但需修正外显子界定。表明任一套注释均有缺陷,需RNA-seq实证校正。
Examining gene models in the UCSC genome browser: Use cases(UCSC基因组浏览器中检查基因模型:使用场景)
归纳三类使用情境:①已报告等价对——若两模式表达谱相似一般可信,不同时需调出UCSC视图核查模型差异(如发现某等价对一模型缺外显子或错误合并外显子);②无报告等价对——可通过UCSC视图发现漏注基因、真正等价但因重叠基因未被算法捕获(如图示TC010660/655314与重叠TC010659致等价未收录)、或旧版discontinued NCBI模型较新版更契合reads;③基因组区域有reads覆盖但无任一基因集注释——提示未注释基因或遗传元件(如发现一类Gypsy超家族LTR反转录转座子命名为Pucelle)。强调BeetleAtlas 2表内表达值依赖所用基因模型正确性,等价关系不保证模型无误。
讨论与结论翻译
BeetleAtlas 2(www.beetleatlas.org)免费开放,提供双模式查询、8391对交叉引用等价基因及联动UCSC Genome Browser的22组织/阶段RNA-seq覆盖度自定义视图(bigWig)和三套基因模型自定义轨道(转换后OGS3、discontinued旧NCBI、格式化NCBI RefSeq)。该资源使赤拟谷盗研究者能在计划基因实验前核实目标基因的注释准确性,规避因基因模型错误导致的引物设计偏差或表达误读。尽管OGS3与NCBI注释各有不足,BeetleAtlas 2的RNA-seq实证视图可解决二者间多数分歧,未来有望参与指导修订版赤拟谷盗基因集的构建;研究人员计划持续收集并发布校正/新增蛋白编码基因及转座子注释的GFF自定义轨道供社区使用。对于组蛋白等近 identical多拷贝基因因读段无法唯一比对可能出现假阴/假阳,系统会警示用户。代码开源于GitHub,RNA-seq原始数据存于ENA(PRJEB110472)。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号