编辑推荐:
葡萄常受生物和非生物胁迫影响生长,RNA - Seq 数据利用不便。研究人员开发葡萄基因表达数据库(GEDG),整合多源数据。它涵盖多种胁迫和发育阶段数据,为葡萄研究提供便利,推动葡萄功能基因组学和遗传改良研究。
葡萄,作为世界上古老的栽培水果之一,不仅有着极高的营养价值,还在全球经济中占据重要地位。然而,无论是干旱、高温、低温等非生物胁迫,还是病虫害等生物胁迫,都严重影响着葡萄的生长与繁殖。在科研领域,RNA 测序(RNA - Seq)成为研究葡萄在不同环境条件下基因表达模式的关键工具。但随着相关组学数据的不断增加,如何高效利用这些数据,让科研人员更便捷地获取和分析葡萄基因表达信息,成为亟待解决的问题。
为了攻克这一难题,安徽农业大学的研究人员开展了一项极具意义的研究,开发了葡萄基因表达数据库(Gene Expression Database of Grape,GEDG) 。这一数据库的诞生,为葡萄研究领域带来了新的曙光,它整合了公开的 RNA - Seq 数据,收集了不同葡萄品种的特征,为科研工作者提供了一个免费的资源平台,在葡萄研究中具有重要意义。该研究成果发表在《BMC Plant Biology》杂志上。
研究人员在构建 GEDG 时,采用了多种关键技术方法。数据来源上,所有数据均从基因表达综合数据库(Gene Expression Omnibus,GEO)下载。利用 Java 语言进行数据库开发,基于关系数据库架构搭建平台。在数据处理方面,运用 FPKM 值对表达数据进行标准化处理,通过 DESeq_edgeR 进行差异表达基因(Differentially Expressed Genes,DEG)分析,借助 ClusterProfiler 进行基因本体(Gene Ontology,GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析。
数据库的构建与内容
研究人员从 Phytozome 和 Grapedia 获取葡萄基因的基本信息,涵盖编码序列(Coding Sequence,CDS)、基因序列等多方面内容。同时整合了三个常用的葡萄基因组版本,并建立基因 ID 的交叉引用。此外,还获取了 Pfam、GO 等注释信息,计算了蛋白质序列的分子量(MW)和等电点(pI),并下载了葡萄的旁系同源基因和多个物种的直系同源基因 。
数据库的实用性与功能模块
GEDG 收集了大量 RNA - Seq 数据,包括 32 个胁迫相关数据集、20 个生长发育数据集和 1 个染色体倍性数据集。这些数据被统一处理并整合到数据库中,为深入研究提供了丰富资源。
- 界面设计:GEDG 拥有直观、易用且个性化的交互网络界面,设有多个功能模块。首页将转录数据分类展示,方便用户选择;基因注释模块提供多种搜索方式,帮助用户探索基因功能;JBrowse 模块作为基因组浏览器,可展示基因特征;转录组模块整合了大量相关数据,方便用户获取和分析;性状与变异模块收集了不同葡萄品种的性状和变异数据;工具模块包含多种分析工具,如 Blast Search、基因 ID 转换、富集分析、同源组搜索等;下载模块方便用户获取资源;帮助模块为用户提供操作指南等信息。
- 数据展示与分析:在转录组模块,用户可以通过多种方式查看数据。如在概述部分,能获取每个转录组数据集的详细信息;功能注释部分可查看转录本的功能细节;选择特定胁迫类型,可获取相关详细信息和可视化数据。通过设定参数(∣log2FC∣≥2 ),可以识别差异表达基因,并通过维恩图展示分析结果。
研究结论与讨论
研究人员成功构建了葡萄综合表达模式数据库 GEDG,并为用户提供了多种分析工具。这是首个涵盖葡萄在胁迫和不同生长发育阶段基因表达谱的数据库。随着序列数据的不断增加,GEDG 将持续整合更多胁迫条件下的转录组数据和其他相关葡萄数据,同时不断增强系统功能,以满足更全面的葡萄研究需求。
GEDG 的出现,为葡萄研究领域的科研人员提供了强大的工具。它使得研究人员能够更高效地分析葡萄基因功能,深入探究葡萄在胁迫和生长发育过程中的分子机制,进而为葡萄的遗传改良、提高葡萄的抗逆性和品质奠定坚实基础。这一数据库的应用,有望推动园艺葡萄研究取得更多突破,为葡萄产业的发展提供有力的科学支撑 。