基于人工智能辅助诊断常规革兰氏染色阴道涂片中阴道毛滴虫(Trichomonas vaginalis)

《Diagnostics》：AI-Assisted Diagnosis of Trichomonas vaginalis from Routine Gram-Stained Vaginal Smears

【字体：大中小】 时间：2026年06月10日 来源：Diagnostics 3.3

编辑推荐：

　　摘要：背景/目的——阴道毛滴虫(Trichomonas vaginalis, T. vaginalis)是全球流行最广的非病毒性性传播感染病原体之一。尽管革兰氏染色(Gram stain)是临床微生物实验室评估阴道标本的常规检查，但传统上不将其作为T. vag

摘要：背景/目的——阴道毛滴虫(Trichomonas vaginalis, T. vaginalis)是全球流行最广的非病毒性性传播感染病原体之一。尽管革兰氏染色(Gram stain)是临床微生物实验室评估阴道标本的常规检查，但传统上不将其作为T. vaginalis的诊断方法，这构成了日常工作中的诊断机会缺失。本研究旨在评估一种人工智能(Artificial Intelligence, AI)辅助诊断方法，用于直接从常规革兰氏染色阴道涂片上识别T. vaginalis。方法——研究人员分析了一套回顾性革兰氏染色阴道涂片图像数据集，采用结合图像处理与分类的级联AI框架。图像筛选与质量控制由专科临床微生物学家监督完成。所有病例均以聚合酶链反应(Polymerase Chain Reaction, PCR)独立确认，并以PCR结果作为参考诊断标准。模型性能通过标准诊断指标评估，包括准确率(Accuracy)、灵敏度(Sensitivity)/召回率(Recall)、特异度(Specificity)、受试者工作特征曲线下面积(Area Under the ROC Curve, AUC)、Cohen's Kappa系数及Matthews相关系数(Matthews Correlation Coefficient, MCC)。采用留出独立测试集(Held-out independent testing)评估模型在内部验证子集之外的泛化能力。结果——所提出的AI辅助方法对T. vaginalis的识别表现出较高诊断性能，AUC达0.973，Cohen's Kappa为0.87，MCC为0.87。该系统在内部及外部验证数据集上均与PCR结果呈高度诊断一致性，支持了该方法在常规实验室条件下的可行性与可重现性。结论——本研究表明，人工智能可通过实现对革兰氏染色阴道涂片中T. vaginalis的可靠识别，从而增强这一常规已开展检查项目的诊断效用。所提出的方法可整合入标准微生物学工作流程中作为客观的决策支持或分诊(triage)辅助手段，在不改变现有实验室操作程序的情况下促进早期识别并支持临床决策。

论文解读：基于人工智能辅助诊断常规革兰氏染色阴道涂片中阴道毛滴虫(Trichomonas vaginalis)

研究背景与意义

阴道毛滴虫(Trichomonas vaginalis, T. vaginalis)是一种鞭毛原虫，引起滴虫病(trichomoniasis)，是全球最常见的非病毒性性传播感染，年发病约1.7～1.9亿例。其可导致阴道炎、宫颈炎、不孕、不良妊娠结局及增加HIV易感性，但在资源受限地区常因诊断手段局限而被漏诊。现行诊断方法中，湿片镜检(wet mount microscopy)快速廉价但灵敏度低(35%～70%)，且依赖虫体活动力及取材至观察的时间间隔；培养法灵敏度有所提升(44%～88%)但耗时长且需特殊条件；核酸扩增试验(Nucleic Acid Amplification Test, NAAT)虽为参考标准(灵敏度76%～100%)，但受成本、基础设施及可及性限制难以普及。革兰氏染色(Gram stain)是临床微生物实验室阴道分泌物检查的常规操作，快速、低成本且无需特殊设备，但因染色使T. vaginalis形态学特征（如鞭毛、波动膜）模糊，通常不被用于诊断T. vaginalis，镜下虫体呈10～20 μm卵形结构伴颗粒状胞质，易与白细胞、上皮细胞及染色 artifact混淆。既往回顾性分析提示革兰氏涂片中其实含有可识别T. vaginalis的信息却未被充分利用。近年来AI已成功应用于荧光显微镜、湿片视频等对T. vaginalis的检测与分割，但尚未见针对常规革兰氏染色涂片的自动化检测研究。鉴于革兰氏染色在全球实验室的标准化与普及性，利用AI挖掘其潜在诊断信息可在不改动现有实验室流程的前提下提升检出率。本文发表于《Diagnostics》，旨在开发并评估一种可迁移、可扩展的AI辅助诊断支持系统，用于从常规革兰氏染色阴道涂片中检测T. vaginalis。

主要关键技术方法

研究为回顾性观察性研究，样本为2024年至2025年间西班牙Alcalá德埃纳雷斯Príncipe de Asturias大学医院(HUPA)女性患者革兰氏染色阴道涂片图像，感染状态以Abbott Alinity m STI Assay（靶向T. vaginalis特异性核酸序列的多重实时NAAT）结果为参考标准。图像经常规光学显微镜(Leica DM3000 LED) 100×物镜采集，并兼容智能手机(Samsung Galaxy S24)目镜拍摄存为PNG格式。预处理中对原始约3000×3000像素显微图进行视场(Field-of-View, FOV)标准化提取——灰度化、二值化轮廓检测最大连通域、最小外接圆掩膜裁切并统一缩放至760×770像素（训练推理用700×700像素），仅做强度归一化无数据增强。分类模型选用ImageNet-21K预训练的EfficientNetV2-XL为骨干网络，替换自定义二分类头，基于PyTorch框架用AdamW优化器微调（骨干后两层与分类头可训练其余冻结），采用余弦退火学习率调度，按患者分层预留15%图像(n=380)为完全独立的测试集，85%(n=2160)用于训练(n=1836)与内部验证(n=324)。性能评估含准确率、灵敏度、特异度、F1值、Cohen's Kappa、Matthews相关系数(MCC)、ROC曲线及AUC，校准评估含期望校准误差(Expected Calibration Error, ECE)、最大校准误差(Maximum Calibration Error, MCE)与Brier Score，置信区间由Wilson score法或Bootstrap重抽样估计。

研究结果

3.1. Model Training and Internal Validation（模型训练与内部验证）

3.1.1. Training and Validation Curves（训练与验证曲线）：微调进行50个epoch，训练与验证准确率在前约20 epoch后上升并趋于稳定，最终训练准确率91.56%、验证准确率92.28%；训练损失降至0.0002、验证损失0.0003，未见明显过拟合，表明模型优化收敛。

3.1.2. Quantitative Validation Performance（定量验证性能）：在内部验证集(n=324)上总体准确率92.28%(95% CI: 0.8886–0.9472)，T. vaginalis阳性(CatAB)灵敏度94.32%(95% CI: 0.8986–0.9688)，阴性(CatN)特异度89.86%，CatAB阳性预测值(精度)91.71%；Cohen's Kappa 0.8441(95% CI: 0.7836–0.8937)，MCC 0.8445(95% CI: 0.7796–0.9041)，平衡准确率0.9209。说明模型在未见过的内部数据上具良好判别能力。

3.2. Overall Diagnostic Performance on the Independent Test Set（独立测试集上的整体诊断性能）

在完全独立测试集(n=380，CatAB n=206，CatN n=174)上总体准确率90.0%(95% CI: 0.866–0.926)；CatAB灵敏度(recall)92.7%(95% CI: 0.883–0.955)，精度89.3%(95% CI: 0.844–0.927)，F1值91.0%；CatN特异度86.8%(95% CI: 0.810–0.910)，精度91.0%，F1值88.8%。宏观F1值89.9%，加权F1值90.0%；Cohen's Kappa 0.798(95% CI: 0.731–0.860)，MCC 0.799(95% CI: 0.734–0.859)。混淆矩阵显示真阳性191例、真阴性151例、假阴性15例、假阳性23例。内部验证与独立测试指标95% CI重叠显著，表明模型泛化能力稳定，未发生过拟合于验证集。

3.3. Class-Specific Discrimination Performance and ROC Analysis（类别判别性能与ROC分析）

独立测试集ROC分析显示CatAB的AUC为0.973(95% CI: 0.959–0.984)，CatN（一对多OvR方案）AUC亦为0.973(95% CI: 0.959–0.985)，远离随机线(AUC=0.5)，证实模型对阳性与阴性样本具有稳定的阈值无关判别排序能力。

3.4. Prediction Probability Distribution（预测概率分布）

正确分类样本的预测Top-1概率多集中于高置信度区(>0.80，大量>0.90)，误分类样本则多聚集于决策阈值附近，高置信度的错误预测罕见。说明残差错误多源于形态学本身模糊性而非模型盲目过自信，支持可控阈值调节。

3.5. Calibration and Reliability of Probabilistic Outputs（概率输出的校准与可靠性）

经温度缩放(Temperature Scaling, T=0.6000)后，多类Brier Score为0.131(95% CI: 0.101–0.167)，负对数似然(NLL)0.209(95% CI: 0.169–0.262)，期望校准误差ECE 0.023(95% CI: 0.022–0.058)，最大校准误差MCE 0.235(95% CI: 0.148–0.521)。可靠性图显示高置信度区间预测与经验准确率接近对角线，中间置信区间轻微偏离但与模糊形态区域吻合。表明模型概率输出经校准后与真实经验准确性一致，可用于风险分层与阈值调整。

讨论与结论翻译总结

讨论指出：独立测试较内部验证准确率仅降约2.3个百分点且置信区间大幅重叠，灵敏度维持高水平(94.3% vs 92.7%)，特异度适度降低(89.9% vs 86.8%)，MCC与Kappa仍处高度一致范围，支持泛化稳定性。假阳性多关联炎性碎片、上皮碎片、黏液或染色artefact形似虫体，假阴性多见于虫体负荷低、保存差、染色弱或不在视野内；误分类集中于决策边界且高置信度误判少，配合低温标定ECE说明错误具结构化特征。模型允许依临床目的调低阈值增敏用于筛查或调高减假阳性用于确认。局限含回顾性、单中心染色及同型号设备可能引入域偏移(domain shift)、未按患者/玻片严格分组防数据泄漏(data leakage)、整图分类未做虫体级标注分割、未系统对比其他架构、无多重病原检测能力、显微单视野二维采样体积小于NAAT处理量可能影响低菌荷时灵敏度。未来需多中心前瞻性验证、严格患者级数据划分、Grad-CAM等可解释性分析、多视野聚合及卫生经济学评估。

结论部分译文：本研究表明，利用深度学习可从常规革兰氏染色阴道涂片中系统性提取对阴道毛滴虫(Trichomonas vaginalis)有诊断意义的形态学信息。在内部验证与留出独立测试中判别性能保持稳定，外部评估下一致性指标与高灵敏度得以保留。各置信区间在数据集间大幅重叠，支持模型行为的一致性而非仅验证集优化。重要的是，误分类主要集中于决策阈值附近，高置信度误判罕见；经温度缩放后期望校准误差低，说明模型概率输出不仅具判别力且数值上与经验准确率相合、可解释，这对临床工作流程中阈值适应与风险知情部署至关重要。所提系统并非替代分子诊断，而应被视作决策支持或分诊(triage)辅助工具，可运行于全球广泛开展的既有诊断基质(革兰氏染色涂片)上且无需大幅修改实验室基础设施。经适当验证、优化与流程整合后，该方法可支持去中心化或资源受限的诊断环境。尽管需多中心前瞻性验证以确认域偏移下的稳健性及量化真实世界临床影响，但判别稳定性、校准可靠性与结构化错误行为的汇聚，为该AI辅助分析革兰氏染色阴道涂片检测T. vaginalis方法的技朮严谨性与转化潜力提供了有力证据。

热点排行