牛基因组数据库新突破:全球牛群选择性清除图谱的整合与功能解析
《Nucleic Acids Research》:Bovine Genome Database: new curated collection of selective sweeps in bovine populations across the world
【字体:
大
中
小
】
时间:2025年11月21日
来源:Nucleic Acids Research 13.1
编辑推荐:
本刊推荐:为解决牛基因组学中缺乏整合性选择性清除资源的问题,研究人员开展了“牛基因组数据库(BGD)”更新研究,构建了包含92,519个选择性清除的精选数据集,涵盖全球213个牛群。该资源整合至BovineMine平台,支持跨研究和群体的元分析,将选择性清除与基因、功能、变异及QTL关联,显著加速了候选因果变异的优先排序,为解析牛适应性及经济性状的分子基础提供了重要工具。
在牛基因组学研究领域,识别与重要农业性状相关的遗传标记和因果变异一直是核心目标。随着测序和组学技术的飞速发展,海量的高质量基因组资源不断涌现。然而,这些数据的激增也带来了新的挑战:如何有效地挖掘和利用这些数据,并将其与现有的生物学信息(如基因注释和功能)进行整合分析,成为一个亟待解决的问题。尽管通过分析不同品种和种群中自然选择或人工选择留下的基因组“脚印”——即选择性清除(Selective Sweeps),研究人员已经发现了数千个与产奶量、疾病耐受性以及对极端环境适应性等经济重要性状相关的候选基因和基因组变异,但其中的因果变异及其分子作用机制在很大程度上仍然是个谜。这种知识的断层凸显了需要一种能够对候选基因和变异进行优先排序的策略,而缺乏一个整合的选择性清除资源则严重阻碍了元分析和候选变异优先排序的进程。
为了应对这一挑战,并充分利用牛基因组数据库(Bovine Genome Database, BGD)这一自建立以来持续为研究界提供数据挖掘、基因组导航和注释不可或缺工具的平台,研究人员在《Nucleic Acids Research》上报道了BGD的重要更新。这项研究旨在通过构建一个全新的、经过精心整理的全球牛群选择性清除数据集,并深度整合到BGD的分析工具中,为科研人员提供一个强大的框架,以合成关于牛选择特征的知识,从而推动对复杂农业性状遗传结构的解析。
为了开展这项研究,研究人员首先进行了系统的文献回顾,以识别相关研究。他们检索了PubMed、Web of Science和Scopus等主要电子数据库,最终纳入了70篇符合条件的研究论文。从这些文章中,他们手动提取了选择性清除的相关信息,包括品种、统计方法、检验值和基因组组装版本等。对于使用旧版基因组组装(UMD3.1)的研究,他们利用UCSC LiftOver工具将基因组坐标转换到当前通用的ARS-UCD1.2/ARS-UCD2.0组装上。最终构建的数据集包含了92,519个选择性清除,这些清除是通过对全球213个种群群体(代表163个品种)进行的340次独立的全基因组分析所识别出来的。
研究人员为每个选择性清除区域分配了唯一的标识符(前缀BOVSS),并为其赋予了丰富的属性,如种群、品种、品种类别、品种起源、统计检验方法等。为了将这些数据整合到BGD的核心工具BovineMine(一个基于InterMine平台构建的基因组数据挖掘仓库)中,他们利用序列本体论(Sequence Ontology, SO)的术语“haplotype_block”来表示选择性清除区域。为此,他们创建了16个新的模板查询,方便用户快速探索数据,例如查询特定种群选择性清除区域内的基因或QTL(数量性状位点)。同时,这些选择性清除数据也可以在BGD集成的JBrowse基因组浏览器中可视化,并支持GFF3格式下载。
除了选择性清除资源外,本次BGD更新还包括其他多项内容:将核心工具(BovineMine, JBrowse, Apollo, BLAST)更新至ARS-UCD2.0基因组组装(包含牛Y染色体);重新计算了原有的RNA-seq(RNA测序)基因表达水平,并新增了428个来自FAANG(动物基因组功能注释联盟)的RNA-seq实验数据;对长读长转录组(Iso-Seq)数据进行了重映射和组装;新增了103个组织特异性的染色质状态和ATAC-seq(测定转座酶可及染色质的测序)/ChIP-seq(染色质免疫沉淀测序)峰值图谱;对样本元数据进行了大规模更新,添加了细胞本体论(Cell Ontology)、Uberon解剖学本体论(Uberon Anatomy Ontology)和BRENDA组织本体论(BRENDA Tissue Ontology)等术语;并更新了来自Ensembl、RefSeq、UniProt、InterPro、KEGG、Reactome、OrthoDB、AnimalQTLdb等多个外部生物信息学资源的数据集。此外,BovineMine的应用程序编程接口(API)也得到了增强,支持Python、Perl、Java、JavaScript、Ruby和R等多种编程语言,方便用户自动化工作流程。
本研究构建的选择性清除资源是迄今为止最全面的牛选择性清除数据集之一。它涵盖了来自163个牛品种的213个种群群体,包括普通牛(Bos taurus, n=83)、瘤牛(Bos indicus, n=56)、杂交牛(n=9)、桑加牛(Sanga, n=8)和其他混合牛(n=7)。数据集中的每个选择性清除区域都带有详细的元数据,并分配了唯一标识符BOVSS。为了便于在BovineMine中进行集成和查询,研究人员使用序列本体论(SO)中的“haplotype_block”(单倍型块)术语来代表选择性清除区域,并建立了相应的数据模型,该模型与基因、QTL等多种基因组特征相关联。
本次BGD更新涉及多个方面,确保了数据库的时效性和功能性。核心工具均已升级至最新的ARS-UCD2.0基因组组装。转录组和功能基因组数据得到显著扩充,包括重新计算和新增的RNA-seq数据、重处理的长读长转录组数据以及新增的染色质状态图谱。样本元数据 curation(数据整理)工作细致入微,引入了更丰富的本体论术语对样本进行描述,并基于解剖学系统对JBrowse中的组织特异性轨道进行了分类,方便用户筛选。同时,BGD持续集成来自权威外部数据库的最新数据,如Ensembl基因注释、RefSeq序列、UniProt蛋白质、InterPro蛋白质结构域、KEGG和Reactome通路、OrthoDB和Ensembl Compara直系同源基因、Ensembl变异及效应、AnimalQTLdb的QTL、GO注释等,所有数据源的版本信息均可在BovineMine数据源页面查询。
为了满足高级用户的需求,BovineMine提供了基于InterMine平台的Web服务API(应用程序编程接口)。用户可以通过获取API密钥,使用Python、Perl、Java、JavaScript、Ruby或R等语言的客户端库,以编程方式执行模板查询、自定义查询、列表上传和区域搜索等操作,从而实现工作流程的自动化。
为了展示新资源的强大功能,研究人员提供了四个具体的使用案例。例1展示了如何查询特定种群(如“高原玻利维亚克里奥尔牛”)选择性清除区域内的基因,并进行基因本体(Gene Ontology, GO)富集分析,发现这些基因显著富集于免疫反应、刺激反应和嗅觉接收等相关功能。例2演示了如何在一个品种(芬兰爱尔夏牛)中识别与特定QTL性状(如“乳脂产量”)重叠的选择性清除区域,并进一步分析这些区域内的基因及其功能,发现这些基因与脂肪酸结合、甘油三酯代谢等通路相关。例3说明了如何查找包含特定性状QTL(如“攻击行为”)的选择性清除的种群信息。例4则展示了如何利用BovineMine的区域搜索功能,将用户自己研究获得的基因组坐标(如已发表的身体构造性状QTL)与数据库中的选择性清除区域进行比对,实现元分析,从而识别出在多个种群中重复出现的候选区域和基因。
通过引入精心整理的选择性清除资源、进行全面的数据更新和工具改进,BGD为研究界提供了一个强大的知识合成框架。该资源直接解决了长期以来因研究结果难以比较而阻碍解析复杂农业性状遗传结构的挑战。它支持研究人员进行强有力的元分析,将选择性清除与基因、QTL和调控注释等信息相交织,从而加速跨种群的候选变异优先排序,促进验证研究的生物学假说形成。这是朝着设计高效、可持续的牛基因组育种方案迈出的重要一步。研究人员鼓励全球科研社区充分利用这一整合资源,验证候选基因和基因组变异,共同推动牛育种事业的发展。
这项研究整合的数据和工具均可通过Bovine Genome数据库网站免费公开访问,无需注册,但注册账户可以享受保存查询历史、列表和分享结果等增值服务。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号