基于机器学习方法的唾液微生物群在牙周炎检测中的性能研究:大规模筛查的新视角

【字体: 时间:2025年09月19日 来源:Frontiers in Cellular and Infection Microbiology 4.8

编辑推荐:

  本研究利用机器学习(LightGBM算法)分析2050名社区成年人的唾液微生物群(16S rRNA测序),证实唾液微生物群在检测不同严重程度牙周炎(基于探诊深度≥4 mm的牙齿数量定义)中表现出优异性能(AUC 0.81-0.87),并鉴定出包括牙龈卟啉单胞菌(P. gingivalis)和坦纳菌(T. forsythia)在内的关键生物标志物,为无创、大规模的牙周炎筛查提供了新策略。

  

1 引言

牙周炎是一种由宿主免疫反应与牙菌斑微生物复杂相互作用引发的炎症性口腔疾病,临床以牙槽骨吸收和深牙周袋形成为特征,最终导致牙齿丧失。该病还与多种系统性疾病(如心血管疾病、类风湿性关节炎和呼吸系统疾病)相关,因此早期检测和干预对维持口腔及全身健康至关重要。然而,由于早期症状不明显,牙周炎常进展至严重阶段才被发现。传统的牙周检查需要牙科专业人员操作,具有技术性强、耗时且侵入性的特点,亟需开发一种无需专业培训即可准确、简单检测牙周炎的新方法。

唾液因其易于无创收集的特性,成为检测牙周炎的有前景样本。既往研究探索了唾液潜血、酶、细胞因子和蛋白质等多种成分的检测潜力,但尚未建立明确的结论或方法。本研究重点关注唾液微生物群作为一种合理的生物标志物。随着牙周炎进展,牙周袋的龈下空间扩大,被专性厌氧和蛋白水解细菌占据;同时,唾液微生物群包含从龈下空间脱落的细菌作为次要成分,其在唾液中的占比随牙周炎进展而增加。因此,通过检测唾液微生物群来预测牙周状况是合理的。

2 材料与方法

2.1 研究参与者

研究对象为日本久山町的社区居住成年人。作为居民健康检查的一部分,2012年对年龄≥39岁的参与者进行了牙科检查和唾液采样。在2654名接受牙科检查的参与者中,从2100名参与者收集到足够用于微生物群分析的唾液样本。排除牙齿<2颗(满足结果定义所需最低数量,n=49)和探诊深度(PD)数据缺失(n=1)的参与者后,最终2050名参与者纳入分析。所有参与者均签署书面知情同意书,本研究获得九州大学伦理委员会批准。

2.2 牙科检查与唾液样本收集

牙科检查和样本收集按照先前描述的方案进行。简要来说,根据NHANES III方法,对所有除第三磨牙以外的牙齿的两个位点(近中颊和颊中位点)评估PD和探诊出血情况。牙科检查后,指导参与者咀嚼口香糖2分钟,将全刺激唾液收集到无菌塑料管中。采集的唾液样本在-80°C保存直至分析。

2.3 DNA提取与16S rRNA基因分析

使用先前描述的珠击法从唾液样本中提取DNA。使用带样本特异性标签序列的引物8F(5′-AGA GTT TGA TYM TGG CTC AG-3′)和338R(5′-TGC TGC CTC CCG TAG GAG T-3′)扩增16S rRNA基因的V1–V2区域。扩增产物纯化后合并,使用Ion PGM Hi-Q测序试剂盒在Ion PGM上进行测序。所有原始序列读数使用R软件(版本4.2.3)手动编写的脚本进行质量过滤,排除碱基数<200、平均质量得分≤25或未包含正确正反向引物序列的读数。其余读数通过检查正向末端的标签序列进行解复用,并修剪正反向引物序列。质量检查后的读数(fastq.gz)导入QIIME 2(版本2023.2.0),使用vsearch cluster-features-closed-reference插件以97%的最小同一性直接与eHOMD(版本15.22)中的16S rRNA基因序列进行聚类,最终生成包含802个分类群的唾液微生物群丰度表。

2.4 结果定义

牙周炎严重程度根据美国疾病控制与预防中心(CDC)和美国牙周病学会(AAP)病例定义或基于PD≥4 mm牙齿数量的生物学定义进行界定。生物学定义将存在≥2、≥4和≥6颗PD≥4 mm的牙齿(PD≥4 mm牙齿数量的前5%、10%和20百分位数)分别定义为局限性、中间性和广泛性牙周炎。本研究的结果是基于CDC/AAP病例定义的轻度、中度和重度牙周炎,以及基于生物学定义的局限性、中间性和广泛性牙周炎,均作为二分类(如重度与非重度)变量。

2.5 机器学习分析

所有机器学习分析均使用Python软件(版本3.12.5)进行。根据生物学定义测试中间性和广泛性牙周炎时,分别排除了牙齿<4颗和<6颗(定义所需最低数量)的10名和24名参与者。为聚焦唾液微生物群的预测性能,数据集仅包含年龄、性别和每个分类群的相对丰度。应用五重分层交叉验证(使用scikit-learn库版本1.5.1的StratifiedKFold函数)。在所有五折训练/验证分割中,使用LightGBM(版本4.5.0)将模型拟合到训练集。使用验证集评估性能指标,包括受试者工作特征曲线下面积(AUC)、敏感性和特异性。基于约登指数(最大化敏感性与特异性之和)计算确定敏感性和特异性的最佳截断值。该交叉验证过程迭代10次,获得每个性能指标的50个值。超参数主要设置为objective=binary, metric=auc, is_unbalance=True, force_col_wise=True,并使用Optuna库(版本4.0.0)的LightGBMTunerCV函数(n_splits=3)进行进一步调整。获得的最佳参数用于使用训练集拟合模型。为解释模型,计算了沙普利加和解释(SHAP)值。SHAP框架为预测中每个特征分配一个重要性值,从而能够解释复杂模型的预测。计算每个训练模型(50个模型)中所有特征的SHAP值,并计算每个特征绝对SHAP值的均值(SHAP版本0.46.0)。

3 结果

3.1 参与者特征与16S rRNA基因测序

研究了2050名年龄在39-90岁(中位数:61岁)参与者(934名男性,1116名女性)的唾液微生物群。现存牙齿中位数为26颗(四分位距[IQR]:22-28),33.9%的参与者拥有≥28颗牙齿。根据CDC/AAP病例定义,3.8%、18.4%和6.5%的参与者分别患有轻度、中度和重度牙周炎。关于生物学定义,12.0%、5.2%和5.7%的参与者分别患有局限性、中间性和广泛性牙周炎。对他们的唾液样本进行16S rRNA基因扩增子分析,最终获得21,796,606条读数(每样本9534.8 ± 3219.8条读数)以确定唾液微生物群的细菌组成。每位参与者的唾液微生物群包含中位数为198种(IQR: 172-223)细菌物种,以黏液罗氏菌(Rothia mucilaginosa)、产黑色素普雷沃菌(Prevotella melaninogenica)、微黄奈瑟菌(Neisseria subflava)、唾液链球菌(Streptococcus salivarius)和毗邻颗粒链菌(Granulicatella adiacens)为主。

3.2 唾液微生物群检测牙周炎的预测性能

使用LightGBM和唾液微生物群的细菌组成数据构建预测模型。根据每种定义检测牙周炎的预测性能如表2所示。根据生物学定义检测局限性、中间性和广泛性牙周炎的平均AUC值分别为0.81(95%置信区间[CI],0.80–0.81)、0.85(0.84–0.86)和0.87(0.87–0.88),显示出随严重程度增加而升高的趋势。虽然根据CDC/AAP病例定义的重度牙周炎检测AUC值为0.83(0.82–0.84),但检测轻度和中度牙周炎的性能低于使用生物学定义时的性能,AUC值分别为0.77(0.77–0.78)和0.78(0.77–0.79)。

3.3 检测牙周炎的重要特征

为识别检测牙周炎的重要特征,计算了50个模型中每个特征的平均SHAP值。图2显示了基于生物学定义检测牙周炎的前20个最重要特征(按定义的结果见补充表1)。牙龈卟啉单胞菌(Porphyromonas gingivalis)和坦纳菌(Tannerella forsythia)分别对局限性到广泛性牙周炎的检测具有最高和次高的SHAP值。其次是性别、具核梭杆菌文氏亚种(Fusobacterium nucleatum subspecies vincentii)和口腔支原体(Mycoplasma faucium)用于检测局限性牙周炎。对于检测中间性和广泛性牙周炎,口腔支原体(M. faucium)、密螺旋体(Treponema)物种HMT-237和弗雷蒂杆菌(Fretibacterium)物种HMT-362在牙龈卟啉单胞菌和坦纳菌之后尤为重要。人心杆菌(Cardiobacterium hominis)、奇异劳特罗普菌(Lautropia mirabilis)和唾液链球菌(Streptococcus salivarius)的相对丰度对牙周炎的检测呈负向贡献。

4 讨论

本研究通过16S rRNA基因扩增子分析确定了2050名参与者的唾液微生物群组成,并使用机器学习方法验证了其在检测牙周炎方面的预测性能。该方法在基于PD≥4 mm牙齿数量检测牙周炎方面表现出高性能,不仅在广泛性病例中AUC值≥0.80,在局限性病例中也如此,而这在我们先前仅关注唾液中龈下菌斑特异性细菌的研究中检测能力有限。这一结果强调了全唾液微生物群作为牙周炎筛查工具的潜力。与耗时、侵入性且需要技术测试的牙科检查不同,唾液收集简单、无创,且不需要牙医和卫生员的专业知识。此外,这种唾液细菌检测有望有助于重新评估和改善口腔健康状况。我们相信唾液微生物群有潜力用于广泛且无负担的筛查,只需通过收集和邮寄唾液即可简单估算就诊牙科的必要性。

对于临床应用,需要设定适当的截断值。特别是在筛查试验中,优先考虑最小化假阴性(患有牙周炎但检测为阴性者),以减少漏掉需要早期干预或紧急治疗的病例。在检测中间性和广泛性病例时,即使使用基于约登指数(考虑敏感性和特异性平衡)的截断值,敏感性也很高(分别为0.83和0.86)。同时,正如预期,区分局限性病例与健康病例似乎很困难,局限性病例的敏感性(0.76)低于中间性和广泛性病例。当基于F2分数(一种由敏感性和精确度计算得出的F分数形式,优先考虑敏感性)重新计算截断值时,特异性下降至0.60,但敏感性提高至0.87。在这种情况下,假阳性(未患牙周炎但检测为阳性者)可能会增加,但假阴性将减少。这种权衡以及适当的截断值应在对独立人群的进一步研究中仔细考虑。

在预测过程中,牙龈卟啉单胞菌和坦纳菌被确定为检测牙周炎的最重要特征。它们与齿垢密螺旋体(Treponema denticola)一起因共聚集特性和与牙周炎的强关联而被经典地称为“红色复合体”。此外,龈下细菌,如弗雷蒂杆菌物种HMT-362、具核梭杆菌、牙髓卟啉单胞菌(Porphyromonas endodontalis)、龋齿放线菌(Filifactor alocis)和隐蔽真杆菌(Eubacterium saphenum)也被确定为重要特征。这些发现与我们的概念一致,即唾液微生物群包含从龈下空间脱落的细菌,该空间随牙周炎进展而扩大,它们在唾液微生物群中的丰度可用于检测牙周炎。本研究还发现口腔支原体是仅次于牙龈卟啉单胞菌和坦纳菌的关键特征。尽管少数研究报告在牙周炎患者的龈下菌斑中检测到口腔支原体,但它被认为是人类口咽部(包括腭扁桃体)微生物群的成员,可能以不同于龈下细菌的方式参与牙周炎。针对口腔支原体的进一步研究可能为提高预测性能或理解牙周炎提供新信息。

衰老是牙周炎的已知风险因素,并被确定为检测局限性牙周炎的第六重要特征。然而,它未列入检测中间性和广泛性牙周炎的前20个特征。这些结果表明,牙周炎进展引起的唾液微生物群细菌组成改变与年龄无关,并支持唾液微生物群用于检测牙周炎的效用。

在本方法中,基于CDC/AAP病例定义检测牙周炎的预测性能低于基于生物学定义。部分原因是前者考虑了临床附着丧失(AL)。例如,中度定义包括≥2个邻间位点AL≥4 mm的病例。虽然AL可用于评估牙槽骨吸收程度和既往牙周炎,但它不一定伴有深牙周袋。因此,存在许多口腔内龈下细菌未增加的情况,可能无法进行准确预测。

本研究存在一些局限性。首先,物种级分类分配基于16S rRNA基因V1–V2区域的测序。尽管这些区域因能够区分口腔链球菌而被推荐用于口腔微生物群分析(优于V3–V4区域),但可能不足以区分具有相似碱基序列的细菌物种。其次,本方法涉及分子分析和测序成本。尽管测序成本在过去几十年急剧下降,但应考虑成本节约方案,例如同时分析大量样本以用于社会应用。第三,需要进一步检查机器学习模型、输入特征和结果变量的选择。虽然我们进行了逻辑回归分析作为补充分析,但预测性能低于当前结果(局限性、中间性和广泛性病例的平均AUC值分别为0.75、0.76和0.77),表明复杂模型(如LightGBM)的有效性。我们进一步探索了社区牙周指数(CPI)作为结果,检测CPI评分≥3(PD≥4 mm)和4(PD≥6 mm)参与者的性能平均AUC值分别为0.77和0.78,表明CPI的筛查结果也可作为未来研究的金标准。第四,本研究包含日本成年人的数据集,普适性有限。需要使用独立数据集进行外部验证。第五,由于当前结果基于横断面设计,唾液微生物群在评估未来牙周炎发生或进展风险方面的潜在效用应进一步研究。

总之,本研究采用机器学习方法利用唾液微生物群数据,凸显了唾液微生物群在牙周炎筛查中的潜在效用。此外,一些分类群已被确定为筛查牙周炎的显著生物标志物。需要进一步分析评估全球普适性、实用性和成本,以支持开发基于唾液微生物群的新型筛查测试。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号