利用来自精心管理的菌种收藏的高通量DNA条形码数据推进酵母鉴定技术
【字体:
大
中
小
】
时间:2025年11月28日
来源:Molecular Ecology Resources 5.5
编辑推荐:
真菌分类DNA条形码研究。西德林克真菌多样性研究所2006年启动DNA条形码计划,2025年新增2856个ITS和3815个LSU条形码,涵盖917和1137种酵母,其中27%-29%为模式菌株条形码。通过dnabarcoder工具分析发现:ITS全局相似度阈值0.99,分辨率为0.81;LSU为0.996,分辨率为0.82。 genus-level分析显示ITS2在Ascomycota中分辨率为0.76,而LSU在Basidiomycota中达0.93。重新分析人体菌群数据,使用 CBS curated datasets将物种识别准确率提升15%。研究证实高质量参考数据库结合标记特异性阈值可显著提高真菌分类精度,建议未来整合多基因数据及AI工具优化分类模型。
### 摘要
酵母鉴定在微生物学、生物技术、食品科学和医学中至关重要。DNA条形码技术已成为标准方法,但环境DNA(eDNA)元标签记法在揭示真菌多样性方面具有优势。然而,参考序列不足仍是主要挑战。西尔维娅真菌多样性研究所(WI)自2006年起启动DNA条形码项目,旨在为CBS收藏库中约10万种真菌(含1.5万种酵母)生成高质量ITS和LSU条形码。2016年发布的基础酵母条形码数据已覆盖80%的已知物种,本次研究进一步扩展至2,856个ITS和3,815个LSU条形码,涵盖917种和1,137种酵母。其中,27%-29%的条形码来自模式菌株(ex-type cultures),显著提升分类准确性。
### 1. 引言
酵母鉴定依赖ITS(核糖体内部转录间隔区)和LSU(大亚基核糖体RNA基因D1/D2区)条形码。尽管ITS被定义为真菌标准条形码,但LSU在酵母系统分类中更常用。eDNA元标签记法虽能大范围分析微生物群落,但面临参考序列不足的问题。WI的条形码项目通过模式菌株生成高质量参考数据,为酵母分类提供标准化工具。研究重点包括:
1. **条形码分辨率评估**:比较ITS、ITS1、ITS2和LSU在酵母分类中的性能差异。
2. **阈值优化**:确定不同分类等级(种、属、科等)的相似度阈值。
3. **应用验证**:通过重分析人类肠道菌群数据,验证新条形码库的有效性。
### 2. 材料与方法
**数据集**:
- **新数据**:从CBS收藏库的1.5万种酵母中新增2,856个ITS和3,815个LSU条形码,27%-29%为模式菌株数据。
- **已有数据**:整合Vu等(2016)的7,190个ITS条形码(含ITS1、ITS2片段)。
- **对比数据集**:UNITE数据库(约124,785条ITS序列)和人类肠道菌群数据(Nash等,2017)。
**分析方法**:
- 使用`dnabarcoder`工具计算相似度阈值和分类分辨率。
- BLAST比对和系统发育树构建(MAFFT对齐,IQ-TREE进化分析)。
- 通过聚类分析评估条形码区分能力(相似度阈值≥97%)。
### 3. 结果
**3.1 数据集特征**:
- **CBS酵母条形码库**:覆盖917种酵母(属平均30.5条序列),1,137种(属平均34.1条)。
- **分类不均衡性**:属以上分类中,前5个科(如Debaryomycetaceae、Saccharomycetaceae)占主导(60%-93%),导致模型偏向优势类群。
**3.2 条形码分辨率对比**:
- **全长ITS vs. LSU**:
- ITS:物种分辨率最高(0.81),但属级分辨率较低(0.88)。
- LSU:属级分辨率优于ITS(0.95 vs. 0.88),但物种级略低(0.82 vs. 0.81)。
- **短片段(ITS1/ITS2)**:物种级分辨率显著下降(ITS1为0.72,ITS2为0.81)。
**3.3 阈值优化**:
- **物种级**:ITS相似度阈值0.99(AUC 0.81),LSU为0.996(AUC 0.82)。
- **属级**:需调整阈值,例如Ascomycota(0.809)和Basidiomycota(0.847)差异显著。
- **应用案例**:重新分析人类肠道菌群数据,使用CBS条形码库(18,778条ITS2序列)替代UNITE,发现更多稀有真菌(如Debaryomyces fabryi),且分类一致性提高12%-15%。
### 4. 讨论
**技术挑战**:
- **条形码变异**:ITS1/2和LSU在单种内存在显著差异(如Geotrichum candidum)。
- **分类模糊**:部分属(如Candida、Metschnikowia)因形态相似难以区分,需结合多基因数据。
**改进方向**:
- **多标记整合**:建议结合ITS与LSU,或引入RPB2、TEF1等辅助标记。
- **动态阈值库**:建立分属、科级的相似度阈值表(如附表S2-S3)。
- **长读测序**:PacBio等长读技术可完整捕获ITS区域,提升分辨率。
**实际应用**:
- **临床诊断**:优化阈值后,可减少错误归类(如Cryptococcus和Debaryomyces)。
- **环境监测**:高分辨率条形码助力土壤、发酵食品等环境样本分析。
### 5. 结论
本研究通过扩展CBS酵母条形码库,验证了ITS和LSU在不同分类层级中的适用性:
1. **全长条形码更优**:ITS在物种级(AUC 0.81)、LSU在属级(AUC 0.82)表现最佳。
2. **阈值需动态调整**:例如,Ascomycota属级阈值需降至0.80,Basidiomycota需0.85。
3. **数据库质量关键**:即使小数据集(<20,000条)也能通过高质量校准提升分类精度。
**数据公开**:
- 新条形码已提交GenBank(登录号KIXT01000001.1-KIXT01002856.1,KIXS01000001.1-KIXS01003815.1)。
- 完整阈值表及系统发育树见附录(S1-S8)。
**意义**:为真菌分类学提供了标准化工具,同时强调参考数据库需定期更新(如2023年分类修订)。未来结合基因组数据(如全基因组测序)可进一步提升准确性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号