编辑推荐:
在传染病防控中,病原体基因组数据共享存在阻碍。研究人员以霍乱弧菌(Vibrio cholerae)基因组为对象,探究其二次利用的潜在价值。结果发现数据共享存在诸多问题,该研究为全球健康和知识发现推动微生物基因组数据的国际共享提供思路。
在全球公共卫生领域,微生物基因组学的发展让人们对传染病及其传播的理解焕然一新。新冠疫情更是凸显了微生物测序在传染病控制中的关键作用,国际微生物基因组学数据共享也成为预防未来疫情的重要基石。然而,现实却充满挑战。一方面,高通量测序技术的获取存在差异,不同国家和地区在测序能力上参差不齐;另一方面,共享基因组数据的治理问题备受关注,数据的安全性、隐私性以及合理使用等方面都缺乏完善的机制。这些问题严重阻碍了国际数据的有效流动,导致大量有价值的数据无法充分发挥作用。例如,高达 37% 有能力报告 SARS-CoV-2 变异株的国家,上传至国际公共数据库的相关序列还不到关注变异株序列的一半。同时,共享序列中相关元数据的缺失,也极大地限制了病原体基因组数据在开放数据库中的应用价值,大量 “未发表于期刊但存在于数据库中”(UJAD)的测序数据被忽视和未充分利用。在此背景下,为了挖掘病原体基因组数据二次利用的价值,来自澳大利亚悉尼大学医学院(The University of Sydney, Sydney, New South Wales, Australia)、悉尼传染病研究所(Sydney Infectious Diseases Institute, Faculty of Medicine and Health, The University of Sydney)以及西梅德医院传染病与微生物学公共卫生中心(Centre for Infectious Diseases and Microbiology - Public Health, Westmead Hospital)等机构的研究人员,以霍乱弧菌(
Vibrio cholerae)基因组为研究对象展开了深入探究 。该研究成果发表在《Scientific Data》上,为推动全球健康和知识发现奠定了重要基础。
研究人员运用了多种关键技术方法。在数据提取阶段,借助 R 包 “rentrez” 从 NCBI 数据库获取数据,并利用 NCBI 数据集命令行工具下载霍乱弧菌基因组组件。通过数据归一化处理,规范了不同来源数据库的属性命名。在评估数据价值时,分别计算序列质量、上下文元数据、新颖性和及时性的子分数,构建出综合的价值评估体系,还通过多基因座序列分型(MLST)和计算机模拟血清分型对基因组进行分析。
下面来看具体的研究结果:
- 国际病原体基因组数据共享的演变:研究人员收集了 2010 年至 2024 年 4 月 11 日提交到 NCBI GenBank 的 10,110 个霍乱弧菌基因组数据。数据显示,基因组数据呈指数增长,这得益于霍乱流行国家测序能力的逐步提升。但数据提供方主要是经济发达的国家,霍乱流行地区的数据占比却不高。在血清型方面,大部分可进行计算机模拟血清分型的基因组中,O1 和 O139 血清型占比较大,其他低毒力血清型虽对疫情控制的直接作用较小,但对了解物种多样性和生态位意义重大。此外,数据质量和关键元数据的可用性差异显著,学术机构和微生物服务提供商提交的数据都存在不同程度的问题,而且样本采集到基因组提交的时间间隔很长,平均达 8 年,部分甚至超过 50 年。
- 剖析汇总数据的价值:过去十五年间,NCBI GenBank 中霍乱弧菌基因组数据的价值显著提升。微生物服务提供商提交数据的价值指数高于学术机构,学术机构提交基因组的年度价值相对稳定,而微生物实验室提交基因组的累积价值则逐渐上升。高、中、低价值的基因组在不同霍乱弧菌序列类型中均有分布,且在当前第七次霍乱大流行期间,共享 O1/O139 血清型基因组可能比共享非产毒菌株基因组具有更高的全球健康二次利用价值。
在研究结论与讨论部分,随着对代表性基因组数据需求的不断增长,准确评估基因组数据价值变得愈发重要。该研究提出的框架有助于估计共享微生物基因组的延迟价值,为数据提供者和使用者带来潜在益处,能够识别高价值的测序和共享案例,激励及时共享数据。然而,目前微生物基因组数据共享仍面临诸多挑战,如数据及时性和元数据完整性的问题。为了推动数据共享,需要建立合理的治理结构和激励机制,确保数据价值得到充分认可和回报。同时,应制定统一的元数据标准,提高数据质量和可用性。尽管该研究在基因组数据价值评估方面存在一定局限性,但霍乱数据集为全球数据共享趋势提供了典型案例,对未来病原体基因组数据的应用和研究具有重要的参考价值。这项研究为国际微生物基因组数据的有效共享和利用指明了方向,对全球健康事业的发展具有深远意义。