
-
生物通官微
陪你抓住生命科技
跳动的脉搏
eccDNABase:首个跨物种染色体外环状DNA综合数据库的构建与应用
【字体: 大 中 小 】 时间:2025年09月14日 来源:Molecular Biology and Evolution 5.3
编辑推荐:
为系统整合分散的eccDNA(extrachromosomal circular DNA)数据,研究团队开发了eccDNABase数据库。该库收录9个物种、63类疾病的1,875,452条eccDNA-疾病关联数据,提供基因重叠、癌基因注释等深度信息,解决了eccDNA研究数据零散、注释不全的痛点,为肿瘤异质性和耐药机制研究提供关键资源。
在生命科学的广阔图景中,染色体外环状DNA(eccDNA)正逐渐成为一颗耀眼的新星。这些微小的环状DNA分子源自染色体序列,广泛存在于几乎所有真核生物中,从植物、线虫到哺乳动物。早在1962年,Spriggs等人在恶性肺肿瘤的胸水细胞中首次观察到它们的身影,当时被称为"双微体"(DMs)。随着研究的深入,科学家们发现eccDNA不仅存在于癌细胞中,也分布于正常组织和体液内,尤其在肿瘤发生发展中扮演着关键角色,常常与不良临床预后相关。
尽管eccDNA具有重要的生物学和临床意义,但这个领域的研究仍面临巨大挑战。最主要的问题是:大量eccDNA的功能和起源仍然未知,且相关数据分散在众多独立研究中,缺乏系统性的整合。这种数据碎片化状态严重阻碍了科研人员对eccDNA功能的深入探索。正如一颗颗散落的珍珠需要丝线串联才能成为珍贵项链,eccDNA研究也需要一个综合性的数据平台来整合这些宝贵信息。
为了解决这一迫切需求,由首都医科大学北京神经外科研究所的张金浩、杨长林、任长源等人领导的研究团队,开发了一个名为eccDNABase的综合数据库。这项工作发表在分子进化领域的权威期刊《Molecular Biology and Evolution》上,为eccDNA研究提供了一个高质量的资源平台。
研究团队采用双重策略收集数据:一方面通过人工文献挖掘,检索2000年1月至2025年4月间PubMed数据库中的4373篇相关文章;另一方面整合现有公共数据库(CircleBase、EccDNA Atlas、TeCD和EccDB)中的数据。经过严格的数据筛选和质量控制,只保留那些具有明确物种来源、疾病状态、基因组坐标、组织来源和可靠检测方法的记录。
为了确保数据准确性,研究团队应用了多项生物信息学技术:使用UCSC LiftOver工具进行人类基因组GRCh37/hg19和GRCh38/hg38版本间的坐标转换;采用BedTools(v2.30.0)进行基因注释和重叠分析;从COSMIC、OncoKB和ONGene三个权威数据库获取1162个独特癌基因列表,用于注释人类eccDNA条目中的癌基因。
eccDNABase数据库目前包含1,875,452条eccDNA-疾病关联数据,涵盖8,398个ecDNA条目、9个物种(智人、小鼠、鸡、拟南芥、水稻、酿酒酵母、番茄、牛和长芒苋)、63种疾病和健康个体。在人类数据中,数据库包含916,703个条目,来自307种不同组织或细胞系,覆盖62种疾病类型和健康状态。这些疾病不仅包括各种癌症,还包括人类免疫缺陷病毒传染病、2型糖尿病和原发性肺动脉高压等其他疾病。
前列腺癌(181,242条)、卵巢癌(173,808条)和淋巴瘤(69,292条)拥有最多的eccDNA条目。值得注意的是,这些条目覆盖了所有人类染色体,大多数eccDNA分子长度小于500个碱基对,表明人类样本中主要存在小型环状DNA片段。尽管胶质母细胞瘤只有5,913条eccDNA条目,但其中包含876条ecDNA条目,且很大比例携带癌基因,凸显了eccDNA在胶质母细胞瘤发展和进展中的关键生物学作用。
eccDNABase提供用户友好的开放访问网络界面,包含六个主要模块:"首页"、"浏览"、"搜索"、"下载"、"提交"和"帮助"。在"浏览"页面,eccDNA条目首先按物种分类,在智人类别下,还提供三种额外的分类选项:按染色体位置、按基因和按疾病。在"搜索"页面,用户可以通过三种方式搜索所有条目:按eccDNA位置、按基因或按疾病。
为了展示eccDNABase的实用性,研究团队进行了两个案例研究。第一个案例中,他们确定了ecDNA条目数量最多的10种癌症类型,并对ecDNA重叠的基因进行了Gene Ontology(GO)生物过程富集分析。分析结果显示,这些基因在细胞表面受体信号通路、端粒组织、免疫系统过程、角化和上皮细胞分化等通路中显著富集。免疫相关和信号通路的富集表明,ecDNA可能通过调节细胞间通讯和促进免疫逃逸来促进肿瘤进展。
第二个案例研究聚焦于胶质母细胞瘤(GBM),分析了GBM样本特有的ecDNA条目。研究人员首先检查了这些ecDNA的染色体分布,发现7号染色体上明显富集——这一模式与GBM中已知的扩增事件一致,特别是对于EGFR基因,该基因经常在ecDNA上扩增,在GBM发病机制中起关键作用。为了评估功能相关性,研究人员从KEGG_GLIOMA通路(hsa05214)获取了一个精选基因列表,并量化了它们在GBM相关ecDNA条目中的存在情况。EGFR是最常观察到的基因,出现在400多个ecDNA条目中,其次是CDK4、CDK2、MDM2和PDGFRA。
与现有数据库相比,eccDNABase包含的eccDNA条目数量最多,涵盖的物种和疾病范围最广,并整合了最新发表文献中的最新数据。通过系统评估现有eccDNA数据库的优点和缺点,研究团队扩展了自己内容的广度和深度,使eccDNABase成为当前最全面的资源库。
然而,研究团队也承认当前数据库存在一定局限性。虽然eccDNABase包含超过180万条eccDNA-疾病关联,但不同疾病间的条目数量存在显著差异。这种不平衡主要源于已发表研究的不均匀分布,而非反映eccDNA在不同疾病类型中的实际生物丰度。因此,当前数据集可能受到研究偏见和文献覆盖差异的影响。研究团队承诺通过未来的季度更新来解决这个问题,特别是通过系统整合新发表的研究来增强覆盖不足疾病的代表性。
eccDNABase的开发代表了eccDNA研究领域的一个重要里程碑。随着eccDNA在各种疾病中的重要性日益明显,eccDNA研究受到越来越多关注。高通量测序技术的应用导致发现了许多功能未知的eccDNA,表明该领域的研究仍处于起步阶段。因此,开发eccDNA的集成数据库和注释平台对于推动该领域的研究至关重要。
eccDNABase不仅为研究人员提供了一个全面的数据资源,还为临床实践和基础研究提供了宝贵工具,帮助科学家更好地理解eccDNA对复杂疾病的影响。通过提供详细注释、用户友好界面和多种搜索选项,这个数据库有望加速eccDNA领域的发现和创新,最终为人类健康带来新的见解和治疗策略。
这项研究的价值不仅在于数据整合的规模,更在于其质量控制标准和注释深度。每个eccDNA条目都包含详细信息,如eccDNA ID、类型、染色体定位、物种、组织或细胞系来源、疾病名称和疾病本体论(DO)ID、与基因的重叠长度和百分比、癌基因重叠、检测方法以及与文献和源数据库的链接。这种丰富的注释为研究人员提供了深入分析的起点,无需从原始文献中手动提取和整合信息。
此外,eccDNABase的跨物种特性为比较生物学研究提供了独特机会。通过分析不同物种间eccDNA的保守性和差异性,研究人员可以深入了解这些环状DNA分子的进化历史和功能意义。例如,植物和哺乳动物中eccDNA的形成机制和功能可能既有共性也有特异性,这些比较分析可能揭示真核生物中DNA环化和维持的基本原理。
随着单细胞测序技术和长读长测序技术的不断发展,eccDNA研究正进入一个新的发展阶段。eccDNABase的设计考虑到了这些技术进步,其模块化架构允许未来整合新的数据类型和分析工具。研究团队计划开发基于网络的功能工具,增强数据分析能力,并提供更丰富的生物学背景信息。
总之,eccDNABase作为一个综合性强、质量高的eccDNA资源,为该领域的研究提供了坚实基础。通过整合分散的数据、提供详细注释和用户友好界面,这个数据库有望促进eccDNA研究的快速发展,加深我们对这些神秘环状DNA分子在健康和疾病中作用的理解。随着更多数据的积累和分析工具的完善,eccDNABase可能成为eccDNA研究的标准参考资源,推动该领域向新的发现和治疗创新迈进。
生物通微信公众号
知名企业招聘