《Database》:CyExpDB: a web-based multi-species tissue-specific gene expression platform for functional genomics in Cyprinidae fish
编辑推荐:
本期推荐研究人员针对鲤科鱼类转录组数据分散、缺乏跨物种比较平台的问题,系统整合1582个RNA-seq样本,开发了首个鲤科鱼类多物种组织特异性基因表达数据库CyExpDB。该平台涵盖5个重要物种的107种组织/细胞类型,提供基因表达可视化、tau指数组织特异性分析、GO/KEGG功能注释及跨物种OrthoFinder同源基因比对功能,为水产育种和进化研究提供关键数据支撑。
在全球水生生态系统面临气候变化、栖息地退化和过度捕捞等多重威胁的背景下,淡水养殖已成为保障粮食安全和促进可持续发展的重要策略。鲤科鱼类作为淡水环境中物种最丰富的家族,不仅具有极高的生态价值,更是全球内陆水产养殖的主力军,其产量占全球内陆水产养殖总量的50.6%。然而,尽管高质量基因组资源日益丰富,鲤科鱼类主要物种的全面转录组数据仍显不足,尤其是缺乏整合多物种、多组织的基因表达平台,严重制约了功能基因组学和分子育种研究的进展。
为解决这一瓶颈,印度农业研究委员会(ICAR)的科研团队在《Database》期刊上发表了题为“CyExpDB: a web-based multi-species tissue-specific gene expression platform for functional genomics in Cyprinidae fish”的研究论文。该研究系统性分析了来自190个BioProject的1582个RNA-seq样本,覆盖鲤(Cyprinus carpio)、银鲫(Carassius gibelio)、金鱼(Carassius auratus)、露斯塔野鲮(Labeo rohita)和草鱼(Ctenopharyngodon idella)5个关键鲤科物种的107种组织和细胞类型,构建了首个专用于鲤科鱼类的多物种组织特异性基因表达数据库CyExpDB(
https://cyexpdb.abrl.in/)。
研究采用标准化分析流程:从NCBI SRA获取原始数据后,使用FastQC进行质量评估,Trimmomatic去除接头和低质量序列;通过HISAT2将高质量序列比对至各物种参考基因组(如草鱼GCF_019924925.1);利用StringTie计算FPKM和TPM表达量,并通过CPC2区分编码/非编码基因;使用R包tispec计算tau(τ)指数量化组织特异性,以τ≥0.85为高特异性基因;功能注释通过Blast2GO完成GO和KEGG分析;OrthoFinder进行跨物种同源基因比对。数据库采用三层架构(HTML/CSS/JavaScript前端、PHP逻辑层、MySQL数据库)实现数据集成与交互查询。
组织特异性基因鉴定与功能分析
研究共鉴定305,459个基因(90,497个编码基因、214,962个非编码基因),其中草鱼编码基因占比最高(45.8%),银鲫最低(18.4%)。基于tau指数将基因分为高特异性(τ≥0.85)、中间特异性(0.2≤τ<0.8)和持家基因(τ<0.2)三类。
组织间比较发现,金鱼脑中高特异性基因数量最多(2,849个),而草鱼CIK细胞系中特异性基因达567个。功能富集显示,露斯塔野鲮脑特异性基因富集于神经发育(GO:0007420)和转录调控(GO:0006357)相关通路,关键基因如fezf1、gbx2等;肾脏特异性基因则富集于线粒体能量代谢(GO:0006120)和离子转运(GO:1902600)。同源分析揭示lbx1a基因在鲤、金鱼和露斯塔野鲮中均呈现脑特异性表达(τ>0.8),表明神经功能在进化中的保守性。
数据库架构与功能实现
CyExpDB提供基因信息、样本详情、FPKM/TPM表达量表、组织特异性基因分类和功能注释五大模块。
用户可通过“Ortholog Gene Browser”比对跨物种同源基因,下载页面提供表达矩阵、tau值、样本元数据和同源映射表。热图可视化功能支持多基因表达模式比较,tau分类界面允许按特异性等级筛选基因,如鲤脑组织中1,389个高特异性基因与嗅觉感知(GO:0007608)和GPCR信号通路(GO:0007186)密切相关。
研究结论与意义
CyExpDB填补了鲤科鱼类多物种转录组整合平台的空白,通过tau指数量化组织特异性,结合功能注释和同源比对,揭示了基因表达模式与组织功能的关联。例如,在草鱼肝脏中特异性表达的foxl3基因参与转录调控(GO:0006357),而金鱼脑中高表达的嗅觉受体基因则关联环境适应机制。该平台为解析鲤科鱼类经济性状(如抗病性、生长效率)的分子基础提供了数据支撑,有望加速水产育种和物种保护策略的开发。研究强调,未来可通过纳入更多物种和单细胞转录组数据,进一步拓展数据库在进化生物学和精准农业中的应用价值。