
-
生物通官微
陪你抓住生命科技
跳动的脉搏
49种硅藻基因组蛋白编码基因注释:推动硅藻生物学与生态学研究的关键资源
【字体: 大 中 小 】 时间:2025年06月12日 来源:Scientific Data 5.8
编辑推荐:
本研究针对硅藻(Bacillariophyta)基因组资源匮乏的现状,对49种硅藻的未注释基因组进行了系统注释。研究人员采用BRAKER2/3结合RNA-seq数据预测蛋白编码基因,通过BUSCO和OMArk评估质量,并利用OrthoFinder构建物种树。该研究将注释基因组数量从9个提升至58个,揭示了硅藻基因家族分化规律,为理解其生态适应性、碳循环贡献及多倍化进化提供了重要数据支撑。成果发表于《Scientific Data》,数据集已开放获取。
硅藻作为海洋微藻的重要类群,在全球碳循环和初级生产中扮演着关键角色。这些具有硅质细胞壁的单细胞生物,不仅能通过光合作用固定大气中20%的二氧化碳,还能产生具有保健功能的ω-3脂肪酸和植物甾醇。然而令人惊讶的是,尽管硅藻具有如此重要的生态和经济价值,其基因组资源却长期匮乏——在NCBI数据库中,仅有13个硅藻基因组拥有蛋白编码基因注释,其中7个还是基于过时的组装版本。这种资源短缺严重阻碍了科学家深入理解硅藻应对环境变化的分子机制、与细菌的共生关系,以及其在碳封存中的具体作用。
德国格赖夫斯瓦尔德大学联合康涅狄格大学等机构的研究团队开展了系统性研究,对49种硅藻的基因组进行专业注释。研究人员从NCBI获取66个代表性基因组中未注释的49个组装版本,采用分级注释策略:先用RepeatModeler2和RepeatMasker进行重复序列屏蔽,再根据数据可用性选择BRAKER2(无转录组数据时)或BRAKER3(有RNA-seq数据时)进行基因预测。通过整合OrthoDB v11的Stramenopiles和Viridiplantae蛋白数据库,结合BUSCO评估,最终获得高质量的基因注释集。研究还利用EnTAP进行功能注释,通过OrthoFinder构建包含58个物种的系统发育树,相关数据已在Zenodo平台开放共享。
关键技术方法包括:1)基于NCBI Datasets的自动化数据获取流程;2)BRAKER2/3分级注释系统(RNA-seq数据来自SRA数据库);3)BUSCO(基于stramenopiles_odb10数据集)和OMArk双重质量评估;4)EnTAP进行功能注释与污染筛查;5)Smudgeplot估算基因组倍性;6)OrthoFinder构建物种树(含5种卵菌作为外群)。
研究揭示了硅藻在碳固定和藻华形成中的核心地位,指出其与细菌的维生素和氮交换等共生关系尚未在基因组层面得到解析。通过比较NCBI和PhycoCosm数据库,发现现有注释覆盖率不足15%,凸显研究必要性。
注释流程采用模块化设计:数据准备阶段优先选择N50值高的代表性基因组;基因预测阶段区分有无转录组数据(分别使用BRAKER3和BRAKER2);质量控制阶段创新性地结合BUSCO完整度(基因组vs蛋白水平)和OMArk一致性分析。特别针对单外显子基因假阳性问题,建立基于功能注释、NR数据库比对和OrthoFinder的三重过滤标准。
最终数据集包含49个物种的GFF3格式注释文件,基因组大小从29Mbp(Licmophora abbreviata)至373Mbp(Thalassiosira livingstoniorum)不等。基因数量中位数为18,452个,多外显子基因占比最高达79.3%(Fistulifera pelliculosa)。
BUSCO评估显示基因组与蛋白水平的完整度高度一致(R2
=0.89),证实注释可靠性。OMArk分析发现Fistulifera solaris存在异常基因复制(重复HOGs达26%),与已知其异源多倍体特性相符。物种树重建支持硅藻多系起源假说,其中Chaetoceros属与羽纹硅藻的密切关系为首次在基因组尺度证实。
该研究创建了迄今最全面的硅藻基因组资源库,将注释覆盖率提升至已知物种的32%。发现水平基因转移(HGT)候选基因1-129个/物种,为研究环境适应机制提供新线索。倍性分析揭示Stephanodiscus minutulus可能为三倍体,挑战了硅藻二倍体为主的传统认知。这些资源将助力:1)藻华预警系统开发;2)硅藻-细菌互作网络解析;3)碳捕获工程菌株设计。未来可通过整合表观组数据进一步揭示硅藻环境适应的表观调控机制。
研究还发现,硅藻基因家族呈现显著分化——仅178个直系同源群存在于所有物种,而物种特异性基因占比达2.6%,这可能与其多样的生态位适应相关。值得注意的是,注释质量评估中建立的"单外显子基因三重过滤标准"被证明可有效降低假阳性率(从原始预测的2.44:1降至1.40:1),为后续藻类基因组注释提供了重要方法论参考。
生物通微信公众号
知名企业招聘