
-
生物通官微
陪你抓住生命科技
跳动的脉搏
中国板栗基因组数据库(CGD)的构建与多组学数据整合:推动遗传研究与分子育种的资源平台
【字体: 大 中 小 】 时间:2025年05月25日 来源:Scientific Data 5.8
编辑推荐:
为解决板栗属植物基因组数据分散、缺乏整合的问题,北京农业大学的科研团队开展了"板栗基因组数据库(CGD)"的构建研究。该研究整合了8个板栗物种的基因组数据、213个RNA-Seq样本和330个重测序样本,通过功能注释、表达谱分析和变异检测,建立了包含BLAST、GO/KEGG富集分析等工具的综合性平台。研究成果发表于《Scientific Data》,为板栗遗传学研究和分子设计育种提供了重要资源。
板栗作为兼具生态价值和经济价值的重要树种,其抗病性和营养品质一直备受关注。随着高通量测序技术的发展,板栗基因组数据不断积累,但现有资源分散在不同平台,缺乏系统整合,严重制约了比较基因组学和分子育种研究的深入。针对这一瓶颈问题,北京农业大学的研究团队通过大规模数据整合与分析,构建了全球首个板栗专属基因组数据库(Castanea Genome Database, CGD),相关成果发表在《Scientific Data》期刊。
研究团队采用多组学整合策略,关键技术包括:(1)从NCBI SRA、TreeGenes等数据库收集8个板栗品种的基因组数据;(2)使用DIAMOND、InterProScan等工具进行基因功能注释;(3)基于STAR和Sentieon流程处理RNA-Seq和重测序数据;(4)通过BUSCO评估基因组完整性。所有数据经标准化处理后存入Figshare和CGD平台(http://castaneadb.net)。
在"背景与摘要"部分,研究阐明了中国板栗(Castanea mollissima)占全球产量74%的产业地位,指出现有基因组资源如'Vanuxem'、'HBY-2'等分散存储的问题。通过整合7个中国板栗品种和1个日本板栗(C. crenata)数据,建立了包含738.87Mb(HBY-2)至790.99Mb(ZS品种)的基因组集合。
"方法"部分详细说明了数据处理流程。基因注释采用DIAMOND比对UniProt、nr等数据库(E值<1e-4),通过eggNOG-mapper获得GO/KEGG注释。RNA-Seq分析使用STAR将91.81%的clean reads比对到HBY-2参考基因组,FPKM标准化表达矩阵揭示了不同发育阶段的组织特异性。变异检测采用Sentieon流程,与GATK3.8交叉验证显示99.943%的一致性。
"数据记录"显示,所有数据按基因组注释(genome_anno.tgz)、基因表达(gene_expression.zip)和变异数据(variants_data)三类存储在Figshare,其中HBY-2基因组通过Hi-C技术提升至N50 6.3Mb。BUSCO评估显示各基因组完整度达92.6%-98.5%(C. crenata最高),满足研究需求。
"技术验证"部分通过多维度质控确保数据可靠性。RNA-Seq样本的层次聚类将213个样本分为胚胎早期、叶片、胚胎晚期和根系四大类,仅9个样本(4.2%)偏离预期分组。重测序数据中,Sentieon与GATK检测的12,307,411个SNP重合率达99.943%,证实变异检测准确性。
该研究的创新性体现在:(1)建立首个板栗专属数据库CGD,集成BLAST、共线性分析等工具;(2)发布经Hi-C辅助组装的HBY-2高质量基因组(BUSCO 97.6%);(3)提供330个种质的变异图谱,为分子标记开发奠定基础。研究成果将加速板栗抗病育种、品质改良等研究,推动木本植物基因组学研究范式的发展。未来可通过纳入更多野生资源和表型数据,进一步拓展平台应用价值。
生物通微信公众号
知名企业招聘