
-
生物通官微
陪你抓住生命科技
跳动的脉搏
口腔微生物组研究新突破:16SGOSeq数据集精准解析口腔细菌与古菌16S rRNA基因拷贝数变异
【字体: 大 中 小 】 时间:2025年05月03日 来源:Scientific Data 5.8
编辑推荐:
为解决口腔微生物组研究中16S rRNA基因拷贝数变异导致的定量偏差问题,西班牙圣地亚哥德孔波斯特拉大学团队构建了首个口腔特异性16SGOSeq数据集。该研究整合3,192个细菌和191个古菌完整基因组,通过生物信息学管道提取16S rRNA基因序列及变异体,为PCR/qPCR和HTS技术提供精准校正依据,显著提升口腔微生物丰度评估准确性。
论文解读
人类口腔是仅次于肠道的第二大微生物栖息地,栖息着700多种微生物,其中200-300种是优势菌群。这些微小居民与宿主健康息息相关——它们的生态失调(dysbiosis)不仅与龋齿、牙周炎等口腔疾病直接相关,还被发现与糖尿病、心血管疾病等全身性疾病存在关联。然而,科学家们在用16S rRNA基因测序技术研究这些微生物时,遇到了一个"基因计数陷阱":由于不同菌株的16S rRNA基因存在多个拷贝(intragenomic redundancy),且拷贝间可能存在序列变异(variants),传统方法会严重高估高拷贝菌的丰度,低估低拷贝菌的存在。
更棘手的是,现有通用数据库如rrnDB和RiboGrove存在三大缺陷:未区分不同生境的基因拷贝差异、无法识别基因组内变异体、且包含大量分类学注释错误。这就像用全球人口普查数据来估算某个社区的具体情况——显然不够精准。尤其在口腔这个特殊生境中,已有研究显示同一属的不同菌种可能对健康产生截然相反的影响,亟需建立专属的精细数据库。
西班牙圣地亚哥德孔波斯特拉大学智能技术研究中心(CiTIUS)的Lara Vázquez-González领衔的研究团队,在《Scientific Data》发表了开创性解决方案。他们从扩展版人类口腔微生物组数据库(eHOMD)和NCBI中筛选3,192个口腔细菌和191个古菌的完整基因组,开发出首个口腔特异性16S rRNA基因数据集16SGOSeq。通过Edgar算法改进的search_16S_py工具精准识别基因序列,结合BLASTN分析变异体差异,最终构建包含14,966个细菌基因(8,155个变异体)和346个古菌基因(255个变异体)的精选数据库,所有序列均标注至菌株级别分类。
关键方法
研究采用四步法:1)从eHOMD和NCBI获取口腔原核生物完整基因组;2)设定严格纳入标准(完整测序状态、明确物种分类、IUPAC模糊碱基<10个);3)用Python脚本调用search_16S_py模块提取16S rRNA基因及变异体;4)通过BLASTN比对验证序列准确性,计算拷贝数统计量。古菌基因组主要来自环境样本(91%),细菌基因组96%为可培养菌株。
数据记录
16SGOSeq包含四大类文件:1)变异体表格(CSV/XLSX)记录每个变异体的拷贝数、链位置等元数据;2)变异体FASTA文件包含全分类注释;3)基因FASTA文件标注所有拷贝的基因组位置;4)变异体分歧表通过BLASTN比对量化基因组内序列差异。
技术验证
随机选取25%序列(细菌2,039条,古菌64条)进行双重验证:与NCBI 16S专用库比对显示≥97%一致性,与core_nt库比对显示≥99%匹配度。发现43个细菌和9个古菌基因组存在高分歧变异体(覆盖度或一致性≤97%),这些数据专门标注在分歧表中供研究者参考。
应用价值
与通用数据库相比,16SGOSeq实现三大突破:1)首次提供口腔特异性的基因拷贝数校正基准;2)可识别基因组内变异体,避免分类学误判;3)支持按任意分类层级筛选并自动计算统计量(均值、标准差等)。该数据集已成功应用于引物设计优化研究,例如发现某些通用引物会漏检口腔链球菌关键变异体。配套发布的PrimerEvalPy工具更可快速评估引物覆盖度。
结论与展望
这项研究填补了口腔微生物定量研究的工具空白,其创新性体现在:1)建立首个涵盖细菌和古菌的口腔16S rRNA基因资源库;2)开发可复用的生物信息学流程;3)揭示口腔微生物基因组内16S基因的高度变异性(1.6%的基因组存在高分歧变异)。团队承诺每年更新数据,并呼吁加强口腔古菌的分离测序工作——当前古菌数据主要来自环境样本,可能无法完全反映口腔真实情况。该研究范式可直接推广至其他生态位研究,为精准微生物组学树立新标准。
生物通微信公众号
知名企业招聘