综述：人工智能用于正畸学颅面部矢状向骨性分类：头颅侧位片研究的系统评价与荟萃分析

《Journal of Taibah University Medical Sciences》：Artificial intelligence for skeletal classification in orthodontics: A systematic review and meta-analysis of lateral cephalometric studies

【字体：大中小】 时间：2026年07月03日 来源：Journal of Taibah University Medical Sciences 2.7

编辑推荐：

　　人工智能（AI）在正畸学颅面矢状向骨性分类中显示出前景性诊断性能，但其证据基础尚处于早期阶段。本研究旨在全面综合现有证据并定量评估基于图像的AI模型利用头颅侧位片进行骨性分类的诊断性能。研究人员按照诊断准确性评价的方法学标准开展系统评价与荟萃分析，并遵循系统评

人工智能（AI）在正畸学颅面矢状向骨性分类中显示出前景性诊断性能，但其证据基础尚处于早期阶段。本研究旨在全面综合现有证据并定量评估基于图像的AI模型利用头颅侧位片进行骨性分类的诊断性能。研究人员按照诊断准确性评价的方法学标准开展系统评价与荟萃分析，并遵循系统评价与荟萃分析优先报告条目（PRISMA）声明进行报告。全面的电子检索基于PubMed、Embase、Scopus、Web of Science以及额外的Scopus二次检索，检索时间截止至2025年7月13日。检索策略结合了与AI、机器学习、深度学习、头影测量和骨性分类相关的术语。纳入标准包括：人类受试者接受正畸评估并伴有头颅侧位片；头颅侧位片作为主要成像输入；应用AI、机器学习或深度学习模型对矢状向骨性Ⅰ类、Ⅱ类和/或Ⅲ类进行分类；至少报告一项与骨性分类相关的诊断性能指标；原始同行评议研究。排除标准涵盖：未使用头颅侧位片的成像方式；仅关注头影测量标志点检测、测量可重复性、头位分析、颈椎成熟度、颅面生长预测或法医应用而无骨性Ⅰ类、Ⅱ类或Ⅲ类分类作为结局；仅基于手动推导的头影测量参数进行机器学习而无对头颅侧位片的直接图像分析；评估商业AI辅助头影测量描记软件而无骨性分类结局报告；综述、病例报告、会议摘要、学位论文或缺乏足够诊断性能数据的报告。审查问题为："在头颅侧位片中，基于AI的算法与传统头影测量分析所得真实标签相比，对骨性Ⅰ、Ⅱ、Ⅲ类分类的准确性如何"。研究人群为接受头颅侧位片正畸评估的患者；干预措施为应用AI、机器学习或深度学习模型进行骨性分类；对照为根据标准头影测量诊断标准分配的参考骨性分类；结局为以准确率、灵敏度、特异度或受试者工作特征曲线下方面积（AUC）量化的诊断性能。研究选择过程由两名评审员独立筛选标题和摘要，并对可能合格的文章进行全文详细评估，分歧通过讨论解决，必要时由第三名评审员仲裁。数据提取采用标准化数据提取表，两名评审员独立提取数据，变量包括作者、年份、国家、研究人群、数据集规模与分割、骨性分类方案、参考标准、AI模型架构、训练与验证策略以及报告的诊断性能指标。偏倚风险与适用性担忧采用诊断准确性研究质量评价工具-2（QUADAS-2）进行评估。定量合成采用随机效应模型结合限制性最大似然法（REML），对多分类研究的汇总指标进行logit转换后回转换处理。由于纳入研究数量少、方法学异质性大且存在基于共享数据集的多模型结果，汇总估计值被谨慎解释为探索性摘要而非确定性诊断准确性估计。最终从91条记录中筛选出4项研究纳入系统评价，3项研究进入荟萃分析。

**引言**

错#img&//畸形和牙颌面不调的高患病率使全球正畸治疗需求持续居高。骨性分类已成为正畸学中的标准诊断程序，是制定适当治疗策略的基础。头影测量分析通过提供必要的解剖测量，在正畸诊断和治疗计划中发挥着核心作用，促进了颅面生长的形态计量量化以及硬软组织颌面结构空间关系的评估。自20世纪30年代Broadbent和Hofrath引入头影测量X线片以来，该技术一直是正畸学的基本诊断工具。精确识别个体的骨性分类，特别是上颌骨与下颌骨之间的矢状关系，对于实现稳定的长期正畸效果至关重要。骨性Ⅰ类代表颌骨间理想的前后向关系；骨性Ⅱ类以下颌后缩和/或上颌前突为特征；骨性Ⅲ类则涉及下颌前突和/或上颌后缩。这些矢状向不调在人群中的患病率可高达四分之一，但在不同种族间差异显著。

近年来，人工智能（AI）技术，特别是卷积神经网络（CNN），在医学影像和诊断应用中展现出前景。这些方法已越来越多地应用于正畸学，尤其是在头影测量分析中，传统机器学习方法与先进的深度学习模型均被用于提高二维和三维背景下标志点识别和骨性分类的可靠性、一致性和准确性。然而，大多数前期研究基于相对较小或单中心的数据集，限制了其研究结果的普适性。既往证据综合已考察了AI在牙科影像和头影测量工作流中的应用，但其关注点与本综述不同。关于深度学习和CNN在牙科影像诊断中应用的综述表明，AI在多项牙科影像任务中表现良好，同时也凸显了数据集、模型架构、验证策略和 reporting质量方面的异质性。在头影测量领域，系统评价和荟萃分析主要集中于自动化标志点检测和描记准确性，显示AI能够以临床可用的性能定位头影测量标志点，但误差因标志点、图像质量和研究设计而异。相关下颌生长预测的综述也强调，既往AI研究受限于小数据集、回顾性设计和外部验证不足等问题。因此，尽管这些综合研究支持AI在正畸影像中的潜在应用，但尚未直接证明基于图像的AI能否将头颅侧位片中的矢状向骨性Ⅰ、Ⅱ、Ⅲ类作为一种诊断终点进行分类。本综述针对一个更窄且临床独特的问题，将骨性分类作为终点而非头影测量预处理或标志点识别。

多项近期研究已探索AI利用头颅侧位片进行骨性分类的潜力。Yu等首次证明使用CNN进行端到端骨性诊断的可行性，在矢状向和垂直向分类中均报告了超过90%的准确率。Jeong等扩展了这项工作，显示即使下颌结构被遮蔽，仍可利用头颅侧位片上可见的颅脊柱特征进行骨性分类预测。Li等比较了多种深度学习架构，确认DenseNet等先进网络 compared to较浅层CNN（如VGG16和GoogLeNet）在区分骨性Ⅰ、Ⅱ、Ⅲ类方面表现更优。更近的，Nan等提供了首个以儿童为重点的数据集，应用DenseNet分析儿童头颅侧位片并报告准确率超过90%。此外，Midlej等研究了阿拉伯人群中基于头影测量参数的机器学习应用，在骨性Ⅱ类 vs Ⅲ类分类中实现了很高的准确率，并对骨性Ⅰ类 vs Ⅱ类模式进行了可靠预测。总体而言，这些研究highlight了AI用于骨性诊断的前景，但也存在方法、人群和结局的异质性，需要进行系统性综合和定量评估。

AI在牙科影像和头影测量分析中已得到广泛研究，但这些研究主要集中于标志点检测、自动描记、测量可重复性或更广泛的诊断应用，而非直接从头颅侧位片进行骨性Ⅰ、Ⅱ、Ⅲ类的直接分类。这一区别具有临床重要性，因为骨性分类是直接影响正畸治疗计划的诊断终点。此外，这些原始研究在数据集构成、成像输入、模型架构和诊断指标报告方面存在实质性差异，难以判断当前证据的一致性和临床相关性。

本系统评价与荟萃分析旨在全面综合现有证据，并定量评估基于图像的AI模型利用头颅侧位片进行骨性分类的诊断性能。

**方法**

**方案与报告**：本系统评价与荟萃分析按照诊断准确性评价的方法学标准开展，并遵循系统评价与荟萃分析优先报告条目（PRISMA）声明进行报告。

**检索策略**：基于PubMed、Embase、Scopus、Web of Science以及额外的Scopus二次检索进行全面电子检索，检索时间截止至2025年7月13日。检索结合了与AI、机器学习、深度学习、头影测量和骨性分类相关的术语。检索术语的选择紧密围绕预设的综述问题，并对头颅侧位片保持特异性，因此未优先考虑可能纳入非目标成像模态的更广泛术语。

**纳入标准**：研究纳入需满足所有以下条件：（1）纳入接受正畸评估并伴有头颅侧位片的人类受试者；（2）头颅侧位片作为主要成像输入，即头颅侧位片被AI模型直接分析用于骨性分类，而非仅用于手动提取头影测量数据后再进行模型开发；模型可单独使用头颅侧位片或结合额外的 demographics或成像输入，但头颅侧位片须被模型直接分析；（3）应用AI、机器学习或深度学习模型对矢状向骨性Ⅰ类、Ⅱ类和/或Ⅲ类进行分类；（4）至少报告一项与骨性分类相关的诊断性能指标，包括准确率、灵敏度、特异度、精确率、F1分数或受试者工作特征曲线下方面积（AUC）；（5）原始同行评议研究文章。

**排除标准**：研究若符合以下任一标准则被排除：（1）使用的成像方式不含头颅侧位片，如全景片、单独锥形束计算机断层扫描（CBCT）或合成图像；（2）仅关注头影测量标志点检测、测量可重复性、头位分析、颈椎成熟度、颅面生长预测或法医应用，而无骨性Ⅰ类、Ⅱ类或Ⅲ类分类作为结局；（3）仅基于手动推导的头影测量参数进行机器学习，而无对头颅侧位片的直接图像分析；（4）评估商业AI辅助头影测量描记软件而无骨性分类结局报告；（5）综述、病例报告、会议摘要、学位论文或缺乏足够诊断性能数据的报告。

**研究问题与PICO**：审查问题为"在头颅侧位片中，基于AI的算法与传统头影测量分析所得真实标签相比，对骨性Ⅰ、Ⅱ、Ⅲ类分类的准确性如何"。人群（P）为接受头颅侧位片正畸评估的患者；干预（I）为应用AI、机器学习或深度学习模型进行骨性分类；对照（C）为根据标准头影测量诊断标准分配的参考骨性分类；结局（O）为以准确率、灵敏度、特异度或AUC量化的诊断性能。

**研究选择**：所有通过数据库检索识别的记录被导入文献管理软件并去除重复。两名评审员独立筛选标题和摘要以排除明显不相关的文章，然后对可能合格的文章全文进行详细评估。分歧通过讨论解决，必要时第三名评审员担任仲裁。

**数据提取**：对于每项纳入研究，两名评审员使用为本综述开发的标尚化数据提取表独立提取数据。提取变量包括作者、年份、国家、研究人群、数据集规模与分割、骨性分类方案、参考标准、AI模型架构、训练与验证策略以及报告的诊断性能指标（准确率、灵敏度、特异度、AUC，以及可获得的阳性预测值（PPV）和F1分数）。对于涉及k折交叉验证的研究，记录独特受试者总数并提取各折的平均性能。提取表由研究团队审查后方可进行完整提取。分歧通过讨论和咨询第三名评审员解决。

**偏倚风险评估**：采用诊断准确性研究质量评价工具-2（QUADAS-2）评估偏倚风险和适用性担忧，该工具评估四个偏倚风险领域（患者选择、待评价试验、参考标准、流程和时机）和三个适用性领域（患者选择、待评价试验、参考标准）。两名评审员独立评定每项研究，任何分歧通过咨询第三名评审员解决。QUADAS-2评估结果总结于表4。

**统计分析**：定量合成针对报告可提取汇总指标（包括准确率、灵敏度、特异度和AUC）的多分类研究进行。二分类结局采用叙述性分析。纳入研究报告了异质性的多分类结局结构，且未提供足够可比的配对诊断数据以支持灵敏度和特异度的稳健分层建模，因此未使用分层汇总受试者工作特征和双变量诊断荟萃分析模型。相反，对报告汇总指标在对数优势比转换后分别进行合并，再回转换以供解释。因此，这些合并估计应被解释为探索性摘要指标而非确定性分层诊断准确性估计。由于预期存在数据集、成像输入、模型架构和评估方案的异质性，使用限制性最大似然法的随机效应模型。异质性通过I²和τ²进行量化。

**证据确定性**：未进行总体证据确定性评估。鉴于纳入的诊断准确性研究数量很少、各数据集间存在实质性方法学异质性、输入和评估设计多样、以及个别研究中报告多种模型架构引入的相关性，研究人员认为正式确定性框架在本综述中的解释价值有限。这被认可为本综合的局限性。

**结果**

**研究选择**：从五个数据库共检索到91篇文章。去除47篇重复后，剩余44篇独特记录。标题和摘要筛选排除了32篇未涉及AI用于骨性分类的文章。12篇文章被选中进行全文审查。其中，4篇因关注头影测量标志点或测量可重复性而被排除，2篇因评估商业AI辅助描记软件而非骨性分类模型被排除，2篇因将机器学习应用于手动推导的头影测量参数而非直接分析头颅侧位片被排除。最终4项研究符合纳入标准并被纳入系统评价，3项研究被选入荟萃分析。

**研究特征**：纳入研究的特征总结于表2。提取数据涵盖作者、发表年份、原产国、研究人群、数据集规模、骨性分类参考标准、应用的AI架构或机器学习模型以及报告的诊断性能结局。3项研究对定量综合有贡献。Je et al.的研究保留在定性综述中，但因使用前后位与侧位联合成像并报告最佳性能折而非平均交叉验证结果，限制了与其他研究的可比性，故从荟萃分析中排除。

**定量合成**：仅3项研究可进行定量合成。由于研究数量少、方法学异质性大且纳入了来自共享数据集的多模型层面结果，合并估计应被解释为探索性摘要而非确定性诊断准确性估计。对于报告明确数据集分割的研究，从专用测试集中提取测试受试者数量。对于应用k折交叉验证的研究，将总数据集规模视为有效测试病例数，因为每位受试者被纳入一次测试折，报告的诊断指标为代表各折的平均值。

**灵敏度**：总合并灵敏度为87.02%（95%置信区间：85.64–88.41%）。观察到显著异质性（τ² = 3.21, I² = 99.46%, H² = 184.18; p < 0.001）。类别特异性探索性摘要灵敏度为：骨性Ⅰ类85.50%（95%置信区间：80.82–90.17%; I² = 69.21%），骨性Ⅱ类89.13%（95%置信区间：86.52–91.74%; I² = 0%），骨性Ⅲ类91.20%（95%置信区间：88.84–93.57%; I² = 0%）。DenseNet-161在模型层面结果中具有最高灵敏度89.76%（95%置信区间：86.64–92.88%）。这些发现应谨慎解释，因为合并结果仅来自3项研究，且若干模型层面条目来自共享数据集。

**特异度**：合并特异度为91.08%（95%置信区间：87.30–94.87%），存在显著异质性（τ² = 24.37, I² = 96.83%, H² = 31.56; p < 0.001）。在模型层面结果中，DenseNet-121达到最高特异度94.87%（95%置信区间：91.81–97.93%），而Swin-T显示最低值80.04%（95%置信区间：77.24–82.84%）。

**准确率**：总合并准确率为85.25%（95%置信区间：79.85–90.66%），存在显著异质性（τ² = 65.66, I² = 96.83%, H² = 31.55; p < 0.001）。DenseNet-121在模型层面结果中具有最高准确率90.50%（95%置信区间：87.34–93.66%），而Swin-T最低为62.30%（95%置信区间：57.07–67.53%）。

**AUC**：总合并AUC为0.94（95%置信区间：0.90–0.98），提示纳入研究具有前景的区分能力。然而观察到显著异质性（I² = 98.19%; p < 0.001）。探索性亚组摘要获得合并AUC：骨性Ⅰ类0.94（95%置信区间：0.90–0.97），骨性Ⅱ类0.97（95%置信区间：0.95–1.00），骨性Ⅲ类0.99（95%置信区间：0.98–1.00）。在个体模型层面结果中，DenseNet-161具有最高AUC 0.98（95%置信区间：0.92–1.00）。

**发现总结**：跨越主要合并指标，基于DenseNet的模型通常在模型层面结果中表现最强。DenseNet-161达到最高灵敏度89.76%（95%置信区间：86.64–92.88%），DenseNet-121具有最高特异度94.87%（95%置信区间：91.81–97.93%）和最高准确率90.50%（95%置信区间：87.34–93.66%），DenseNet-161具有最高AUC 0.98（95%置信区间：0.92–1.00），而Swin-T整体性能最低。

**偏倚风险评估**：采用QUADAS-2工具在四个领域（患者选择、待评价试验、参考标准、流程和时机）以及三个适用性领域进行评估。纳入研究间的总体方法学质量为中等到高。Li等的研究偏倚风险最低，具有明确的数据集划分和经validated参考标准的一致使用。Yu等的研究在大多数领域风险较低，但其回顾性单中心设计和类别平衡程序在患者选择方面引入了一些不确定性。Nan等的研究在患者选择和待评价试验领域存在不明确风险，因为所有性能指标均来自内部五折交叉验证而缺乏外部验证，且边缘骨性病例被选择性剔除分析。Jeong等的研究因使用联合后前位和侧位头颅片、不明确的纳入策略以及选择性报告最佳交叉验证折而总体偏倚风险较高。

适用性担忧总体上对于仅限于头颅侧位片的研究较低。Jeong等的研究因多模态设计（后前位+侧位片）降低了与单投影分析的可比性，被排除在定量综合之外。QUADAS-2评估结果提示参考标准和流程及时机领域主要为低风险，仅待评价试验领域存在个别高风险。

总体而言，纳入研究表明基于图像的AI模型在矢状向骨性分类中具有前景的诊断性能，特别是DenseNet架构，但由于研究层面证据基础小、方法学异质性和缺乏外部验证，这些发现应谨慎解释。

**讨论**

本系统评价和探索性荟萃分析的结果表明，基于图像的AI模型利用头颅侧位片进行矢状向骨性分类可能达到前景的诊断性能。合并估计显示总体灵敏度、特异度、准确率和AUC均较高。然而，这些发现应谨慎解释，因为定量合成仅基于3项研究，若干模型层m面结果来自共享数据集，且在数据集、成像输入、模型架构和验证方法方面观察到显著异质性。因此，合并结果应被视为探索性摘要估计而非临床性能的确定性测量。

在纳入研究中，基于AI的骨性分类采用不同的模型设计和输入策略进行评估。Yu等证明了将基于CNN的方法应用于头颅侧位片进行自动化矢状向骨性分类的可行性。Jeong等扩展了该方法，使用联合后前位和侧位头颅片，但其多模态设计和选择性最佳折报告限制了与其他研究的可比性。Li等比较了多种CNN架构，发现DenseNet-161在矢状向颅面模式分类中表现强劲。Nan等进一步通过评估深度学习模型在儿童人群中的应用扩展了证据基础。总体而言，这些研究表明基于图像的AI可以从头影测量图像中识别骨性分类模式，但在数据集、成像输入、模型架构和验证设计方面存在重要差异。

研究中的一致发现是，基于CNN的架构通常在骨性分类中表现出强劲性能。较早的CNN架构如VGG和GoogLeNet因在图像分类任务中通过堆叠卷积操作学习分层视觉特征而被广泛使用。然而，具有改进优化机制的更深架构可能更适合细微的颅面模式识别。ResNet引入的残差连接支持更深网络的训练，而DenseNet则通过将每层与后续层连接进一步改善了特征传播。这种特征重用可能在头颅侧位片中尤为相关，因为骨性Ⅰ类、Ⅱ类和Ⅲ类之间的视觉差异可能很细微，分布于多个颅面结构，且依赖于复杂的空间关系而非单个孤立标志点。

DenseNet模型的相对强劲性能也具有临床合理性。矢状向骨性分类取决于上颌骨、下颌骨、颅底和周围牙颌面结构之间的关系。因此，能够保留和重用低层和高层图像特征的CNN模型可能非常适合基于头影测量图像识别这些模式。相比之下，基于transformer的视觉模型如Swin-T依赖自注意力机制捕获更广泛的上下文关系，但可能需要更大且更多样化的数据集才能实现稳定性能和泛化能力。这在一定程度上解释了Swin-T在现有儿科数据集上性能较低的原因。

研究还表明，基于AI的骨性分类正在超越传统的基于标志点的工作流。传统头影测量诊断通常依赖标志点识别、角度和线性测量以及临床医师解释。基于图像的AI模型可以通过直接从X线片中学习诊断模式来减少手工工作量，从而通过提高效率、减少观察者变异性和提供可重复初步分类来支持正畸工作流。然而，这些系统目前应被视为决策支持工具而非临床医师判断的替代。骨性分类仍是需要结合面部检查、咬合发现、生长状态、患者年龄和治疗目标进行解释的临床诊断。

尽管诊断指标前景良好，但当前证据基础存在重要局限，限制了临床转化。所有纳入研究均为回顾性且主要为单中心设计，因此限制了泛化性，因为头影测量图像可能因人群特征、种族、年龄分布、放射设备、采集方案、头位、图像质量和预处理方法而异。从而，在一个机构训练和测试的模型可能在内部数据上表现良好，但应用到另一中心的图像时可能无法保持相同的准确性。外部验证在纳入研究中均未进行，这仍是确定这些模型是否足够稳健以用于现实世界临床应用的最重要障碍。

另一个重要问题是模型层面结果之间的依赖性。若干研究评估了基于相同底层数据集的多种AI架构，这有助于研究内部比较模型架构，但也意味着模型层面结果并不代表完全独立的研究人群。因此，合并估计可能受到研究内部依赖性的影响，不应被等同于来自多个完全独立临床数据集的合并估计。故本荟萃分析应被视为探索性定量综合而非确定性诊断准确性荟萃分析。

定量合成中观察到的显著异质性可能反映了研究间多种方法学和临床差异，包括年龄组、骨性分类分布、数据集规模、成像输入、模型架构、验证策略和报告格式。一些研究仅使用头颅侧位片，而另一些包含额外的 demographics或成像信息。一些研究使用独立测试集，而另一些依赖内部交叉验证。选择性报告也可能导致证据基础间的不一致。因此，合并结果应被视为对现有证据的广泛探索性概述，而非预期临床性能的精确估计。

可解释性是另一重要考量。基于CNN的模型可以实现强劲性能，但其决策过程往往难以解释。Grad-CAM等可视化方法有助于识别模型是否关注解剖学有意义的区域，如上颌下颌复合体和颅底，而非无关图像区域或采集相关伪影。这对于临床医师信任和检测快捷学习尤为重要，即模型可能内部表现良好但依赖的并非临床有意义的特征。

研究结果还强调未来正畸AI研究需要更完整和标准化的报告。仅凭高准确率不足以确定模型是否具有临床实用性。未来研究应报告类别特异性灵敏度、特异度、精确率、F1分数和AUC，因为不同骨性Ⅰ类、Ⅱ类和Ⅲ类模式的错误可能具有不同的临床含义。类别特异性性能应清楚报告，以便临床医师和研究人员判断各模型的实用价值。这也凸显了未来研究需要标准化方法学报告和遵守AI特异性报告清单。

未来研究还应提供关于参考标准、患者选择、数据集分割、预处理、增强、模型调优和边缘骨性病例处理的详细信息。边缘病例在正畸学中尤为重要，因为骨性分类并非总是清晰分离的类别诊断。剔除边缘病例可能改善表观模型性能，但也会降低临床真实性。因此，未来研究应清楚描述骨性分类如何分配至数据集，以及边缘或混合模式病例是否被纳入或排除。

本综述存在若干局限性。首先，荟萃分析仅纳入3项符合条件的基于图像的AI研究，限制了统计效能并降低了合并估计的可靠性。其次，研究选择和数据提取期间未计算正式评审员间一致性统计，这可能限制了量化评审员间一致程度的能力。第三，个别研究中若干模型在同一数据集上训练和测试，可能引入来自共享样本的效应估计依赖性，并适度夸大了合并精度。第四，研究间观察到显著方法学异质性，包括人群、成像输入、模型架构、验证策略和报告格式的差异。最后，所有纳入研究均缺乏外部验证，这仍是确定现实世界临床稳健性的最重要障碍。

尽管存在这些局限性，本综述提供了关于基于图像的AI利用头颅侧位片进行矢状向骨性分类的可用证据的聚焦综合。研究结果提示AI，特别是基于CNN的模型如DenseNet，有潜力用作正畸学中的辅助诊断工具。然而，在临床实施前，未来研究应优先开展多中心数据集、独立外部验证、标准化参考标准、透明AI报告和临床意义评估。具有骨性Ⅰ类、Ⅱ类和Ⅲ类持续标记的匿名化头颅侧位片开放存储库将支持可重复基准测试和模型间公平比较。在将这些系统纳入常规临床诊断前，还应解决伦理和监管问题，包括数据隐私、透明度、临床医师责任和正畸工作流中的安全整合。

**结论**

证据表明，基于图像的深度学习模型利用头颅侧位片进行矢状向骨性分类可以达到前景的诊断性能。基于DenseNet的架构在可用研究中持续表现强劲，但证据仍然有限、方法学异质且主要基于单中心数据集而缺乏外部验证。定量合成仅纳入少数研究且若干模型层面结果来自共享数据集，因此合并估计应被解释为探索性而非确定性临床性能估计。在将这些系统视为足够稳健以用于常规临床实施前，需要更大规模的多中心研究、标准化报告和独立外部验证。

热点排行