综述：糖尿病足评估工具测量学特性的伞形评价：一项伞形综述

《Journal of Diabetes Research》：Measurement Properties of Instruments Used to Assess Diabetic Foot: An Umbrella Review

【字体：大中小】 时间：2026年06月12日 来源：Journal of Diabetes Research 3.4

编辑推荐：

　　糖尿病足（Diabetic Foot, DF）是一种严重的慢性并发症，显著增加发病率和死亡率。已开发出众多工具以支持系统性的足部评估；然而，其测量学特性尚未得到充分评价。本伞形综述旨在综合糖尿病足评估工具的系统综述证据，评价其方法学质量，并比较已识别工具的心理

糖尿病足（Diabetic Foot, DF）是一种严重的慢性并发症，显著增加发病率和死亡率。已开发出众多工具以支持系统性的足部评估；然而，其测量学特性尚未得到充分评价。本伞形综述旨在综合糖尿病足评估工具的系统综述证据，评价其方法学质量，并比较已识别工具的心理测量学特性及临床适用性。研究人员系统检索了PubMed、EMBASE、Cochrane Library、CINAHL和Web of Science数据库，纳入2010至2025年间发表的综述。两名评价员独立筛选研究、提取数据，并采用系统综述偏倚风险（Risk of Bias in Systematic Reviews, ROBIS）工具和健康测量工具遴选共识标准（COnsensus-based Standards for the selection of health Measurement INstruments, COSMIN）评价方法学质量。分析纳入了涵盖24种工具的11篇系统综述。ROBIS评价显示大多数综述（73%）存在高偏倚风险。工具被分为四个类别且频繁重叠：筛查、风险分层、创面分类和感染/愈合监测。信度（reliability）和构念效度（construct validity）的证据较为常见，而测量误差（measurement error）、反应度（responsiveness）和跨文化效度（cross-cultural validity）则很少被评估。异质性和方法学局限性限制了稳健结论的得出。本伞形综述揭示了糖尿病足评估工具在心理测量学评价方面存在显著缺口，且支持性系统综述中存在方法学缺陷而加剧了这一情况。临床工作者在选择工具时应谨慎，未来研究应优先开展严格的验证研究及高质量的系统综述，以建立标准化的循证工具。

1 引言

糖尿病足是糖尿病的严重慢性并发症，以感染、溃疡和/或下肢深部组织破坏为特征，通常与周围神经病变和不同程度的周围动脉疾病相关。糖尿病足溃疡（Diabetic Foot Ulcers, DFUs）是最常见的临床表现，全球患病率约为6.3%，给各国医疗系统带来沉重负担。DFU与严重并发症高风险相关，包括软组织和骨感染、长期住院以及非创伤性下肢截肢；高达85%的糖尿病相关下肢截肢由足部溃疡进展为严重感染或坏疽所致。

鉴于糖尿病足的高患病率和临床影响，早期识别并发症至关重要。临床指南强调常规足部检查是综合糖尿病管理的基石。目前常用的评估工具包括Inlow 60秒糖尿病足筛查、国际糖尿病足工作组（International Working Group on the Diabetic Foot, IWGDF）风险分层类别、灌注-范围-深度/组织丢失-感染-感觉（perfusion, extent, depth/tissue loss, infection, sensation, PEDIS）分类系统，以及部位-缺血-神经病变-细菌感染-深度（site, ischemia, neuropathy, bacterial infection, and depth, SINBAD）评分等。然而，既往研究和指南对这些工具的分类方式各异，缺乏统一框架；其测量学特性在不同研究中报告不一致，引发了对临床和研究中最佳使用的担忧。伞形综述作为"系统综述的系统综述"，为整合当前关于糖尿病足评估工具测量学特性的证据提供了严谨而全面的方法。

本伞形综述旨在：（a）综合已发表的糖尿病足评估工具系统综述证据；（b）评价纳入综述的方法学质量和偏倚风险；（c）根据COSMIN框架对糖尿病足评估工具进行分类并比较其心理测量学特性；（d）识别当前证据库中关于临床适用性和心理测量学评价的缺口。

2 材料与方法

2.1 研究方案与注册

本伞形综述按照系统综述和荟萃分析优先报告条目-健康测量工具遴选共识标准（Preferred Reporting Items for Systematic Reviews and Meta-Analyses–COnsensus-based Standards for the selection of health Measurement INstruments, PRISMA-COSMIN）指南进行和报告。该方案已在国际系统综述前瞻性注册平台（International Prospective Register of Systematic Reviews, PROSPERO）注册（CRD420251073116）。

2.2 检索策略：通过数据库识别研究

研究人员检索了PubMed、EMBASE、Cochrane Library、CINAHL和Web of Science等电子数据库，纳入2010年至2025年6月19日发表的研究。采用人群-暴露-对照-结局（Population, Exposure, Comparison, and Outcome, PECO）构建问题："在糖尿病患者（P）中，哪些评估糖尿病足状况的工具（E）具有可接受的测量学特性（O）并适用于临床实践？"检索采用关键词和医学主题词（Medical Subject Headings, MESH）结合布尔逻辑运算符，并应用InterTASC信息专家工作组（Information Specialists′ Subgroup, ISSG）开发的验证检索过滤器以提高系统综述检索的精确性和全面性。此外，研究人员手动筛选所有纳入研究的参考文献列表以识别可能符合标准的研究。

2.3 纳入与排除标准

纳入标准：系统综述和荟萃分析，评价糖尿病足评估工具的测量学特性；研究对象包括糖尿病患者，包括疑似或确诊糖尿病足病（Diabetic Foot Disease, DFD）者；病史呈现DFD特征性症状者，包括DFU、糖尿病周围神经病变（Diabetic Peripheral Neuropathy, DPN）、远端对称性多发性神经病变（Distal Symmetric Polyneuropathy, DSPN）和截肢；使用任何测量工具测量糖尿病足结局的研究；报告测量学特性（如信度、效度、反应度）的研究。排除标准：与DFD无关的研究；不涉及糖尿病足相关评估工具的研究（如医疗装置、预测模型或评估生活质量/日常活动能力的工具）；方法学不当的研究，包括原始研究（非综述）、病例研究、研究方案；无法获取全文的研究。

2.4 研究筛选与选择

将数据库检索结果导入文献管理软件（EndNote X9），去重后由第一作者筛选标题和摘要，潜在合格研究保留进行全文审阅。相应作者审核研究选择过程和所有纳入研究以确保一致性和有效性。分歧通过第一作者与相应作者讨论解决直至达成共识。

2.5 数据提取与编码方案

两名评价员独立从各入选研究提取指定变量。

2.5.1 研究特征

包括作者、发表年份、综述类型、纳入研究数量、DFD工具、综述目的、临床设置（如社区、初级保健、医院）、报告的心理测量学特性、使用的方法或指南（如PRISMA和COSMIN）、综述的具体侧重点。

2.5.2 工具特征

包括工具名称、原产国、纳入研究中识别的工具数量、目标人群、初始目的、项目数、评分系统、评估领域和使用者类型（如临床医师评估或患者自评）。为确保跨来源证据的一致性和可比性，仅保留在两篇及以上综述中报告的工具进行评价；仅在一篇综述中提及的工具被排除。

2.5.3 测量工具特性的分类与综合

根据既往指南和系统综述，将分析纳入的系统综述中涉及的工具按照测量糖尿病足的目的进行分类：筛查、风险分层、创面分类、感染或愈合监测。使用COSMIN框架提取心理测量学特性数据，包括内部一致性（internal consistency）、信度（reliability）、测量误差（measurement error）、内容效度（content validity）、结构效度（structural validity）、构念效度假设检验（hypotheses testing for construct validity）、跨文化效度（cross-cultural validity）、标准效度（criterion validity）、反应度（responsiveness）和可解释性（interpretability）。对于在多篇综述中评价的工具，还考虑了报告证据的一致性和质量（如充分、不充分或不确定）。

2.6 系统综述的质量评价

使用Cochrane系统综述偏倚风险（Risk of Bias in Systematic Reviews, ROBIS）工具评价纳入综述的质量。ROBIS评估涵盖四个领域（研究合格性标准；研究识别；数据收集；研究评价、综合与发现），判断为低、高或不确定偏倚风险。同时记录总体ROBIS判断。

2.7 纳入测量工具的分类与特性

根据指南和既往综述研究提出的主要临床目标，将糖尿病足评估工具分为四类：

（1）筛查：筛查工具旨在早期识别风险因素，在溃疡形成前进行干预，关注周围神经病变、周围动脉疾病、保护性感觉丧失和足部畸形。根据IWGDF实践指南，定期筛查为预防策略提供基础并确定是否需要风险分层。

（2）风险分层：风险分层工具根据溃疡或截肢风险将患者分类，考虑患者相关和肢体相关特征如神经病变、血管疾病或溃疡史，为临床医师调整随访间隔和预防护理强度提供标准。

（3）创面分类：创面分类工具对现有DFU的结构化评估进行严重程度分级和预后判断。Wagner分类、Texas（UT）分类、PEDIS和SINBAD等系统基于溃疡深度、大小、缺血、感染和组织丢失进行分类，从而指导治疗决策和预测临床结局。

（4）感染/愈合监测：感染和愈合监测工具评估感染的存在、范围和进展，并追踪愈合情况，如确定溃疡是否完全上皮化、监测治疗反应和识别复发风险。

各识别测量工具的心理测量学特性按照COSMIN分类法进行评估。在可能的情况下评价以下特性：内容效度、结构效度、内部一致性、跨文化效度、信度、测量误差、标准效度、构念效度假设检验和反应度。每项特性根据支持证据的质量和完整性评为充分（+）、不充分（?）或不确定（?）。可解释性单独描述，因其在COSMIN框架中不被归类为心理测量学特性。所有评估由两名评价员独立进行，分歧通过讨论或必要时由第三名评价员解决。

3 结果

3.1 文献检索

共识别802篇研究，去重、初筛和全文审阅后，最终纳入11篇研究。

3.2 研究特征与工具结局

纳入11篇2010至2025年发表的系统综述，大多数（72.7%）发表于近十年。其中3篇进行了荟萃分析，8篇为单纯的系统综述。纳入综述的研究数量为6至149篇不等。这些综述检查了24种糖尿病足评估工具，涵盖从简单筛查工具（如United Kingdom Screening Test [UKST]和Basic Foot Screening Checklist [BFSC]）到综合风险分层方案（如American Diabetes Association System [ADA]和IWGDF）、创面分类（如Wagner、PEDIS和SINBAD）以及感染或愈合监测（如Pressure Ulcer Scale for Healing [PUSH]和Bates–Jensen Wound Assessment Tool [BWAT]）等多种工具。大多数工具为临床医师评估，评估领域包括神经病变、周围动脉疾病、溃疡深度和大小、感染状态、缺血和既往截肢等。

3.3 纳入系统综述的质量评价

使用ROBIS系统评价系统综述层面的偏倚风险。总体而言，1篇综述（9%）被判定为低偏倚风险，2篇（18%）为不确定风险，大多数（8篇；73%）被归类为高偏倚风险。在领域层面，研究合格性标准领域存在高偏倚风险主要由于缺少预设方案、合格性限制理由不足以及研究选择程序不明确。研究和选择领域的问题通常与不完整检索策略、未说明排除灰色文献以及筛选过程记录不充分有关。数据收集和研究评价领域的高偏倚风险主要归因于缺乏重复数据提取、不一致使用经验证的偏倚评价工具以及数据提取程序报告不足。综合和发现领域的常见局限包括缺少敏感性分析、未能探讨发表偏倚以及有限整合原始研究偏倚风险评价到结果解释中。被评为不确定风险的综述通常展示了更强的方法学保障，如方案注册、更广泛的检索覆盖和使用已建立的评价工具，但在某些领域仍缺乏透明度。唯一低偏倚风险的综述在所有领域均遵循最佳实践，包括预先注册、全面无限制的文献检索、双人筛选、数据提取、应用经验证评价工具以及明确整合偏倚风险考量。

3.4 根据四类分类的各测量工具心理测量学特性

从11篇系统综述中提取并分类了24种糖尿病足评估工具。

筛查工具（包括UKST、BFSC和Questionnaire for Diabetes-Related Foot Disease [Q-DFD]）在大多数研究中未报告测量学特性，因此多数领域通常表现为有限的心理测量学证据，标记为"未报告""不确定"或"不充分"。这些工具因其简洁的实用设计而非严格验证的测量工具，主要用于早期识别高危糖尿病患者。其优势在于可在临床环境中简便应用而无需复杂设备，主要用于初级保健、门诊和教育领域。但应识别高危群体并进行额外评估，而非仅凭工具本身做出最终诊断。

风险分层工具（包括Saint Elian Wound Score System [SEWSS]、Diabetic Ulcer Severity Score [DUSS]和IWGDF）在构念效度方面显示较高充分性评级，但未评价内部一致性或测量误差等其他领域。这些工具对糖尿病患者进行临床风险分层，分为低至高危组用于随访、管理和治疗决策。然而，支持其测量学特性的总体证据有限。这反映了这些工具主要作为临床决策辅助而非心理测量学验证工具开发，现有研究规模小且评价标准和结局异质性大。部分工具还与其他领域重叠：DUSS包含创面严重度特征；WIfI整合创面、缺血和感染以评估愈合潜力；Size (Area and Depth), Sepsis, Arteriopathy, and Denervation (S(AD)SAD)系统连接了风险分层、创面分类和愈合监测。

创面分类工具（如SINBAD、PEDIS和UT分类）在构念效度方面显示一定一致性，但结构效度和信度数据常缺失或不一致，因为这些工具原始设计用于临床分期和交流而非严格验证的测量工具。证据有限的原因在于各种工具（如Wagner、PEDIS和UT）因不同目的（预后预测、治疗规划和研究标准化）开发和使用，难以积累一致的验证；标准化研究不足。此外，糖尿病患者血管疾病、神经病变和感染风险的异质性，以及创面位置、大小和愈合模式的广泛变异，阻碍了单一分类系统的普遍适用性。创面的固有变异性和临床评估的主观性也限制了长期验证。

感染或愈合监测工具（如PUSH和Diabetic Foot Ulcer Assessment Scale [DFUAS]）总体显示了较强的心理测量学证据，尤其在反应度和标准效度方面，但许多缺乏内部一致性或跨文化适用性验证。证据有限反映了糖尿病足感染和愈合的固有变异性，难以在长期随访中敏感捕捉变化，且临床实践仍高度依赖专家判断。此外，缺乏金标准、患者异质性、系统验证不足和多学科标准化缺乏共同阻碍了这些工具信度、效度和反应度稳健证据的积累。

尽管结构和开发目标不同，这些工具在评估领域和临床应用方面表现出显著冗余，主要用于风险分类、愈合监测和治疗决策。这种冗余以及心理测量学评价范围有限，在后续的COSMIN评价中得到了一致反映。

研究人员在COSMIN框架下评价了24种糖尿病足评估工具的测量学特性，重点关注信度、效度、反应度和可解释性。在COSMIN概述的九个心理测量学领域中，内容效度、构念效度和信度是最常被评价的，而测量误差、跨文化效度和反应度很少被涉及或常未报告。值得注意的是，没有一种工具在所有九个测量领域中均有证据。部分工具如DFUAS、Diabetic Foot Ulcer Assessment Tool (DMIST)和depth, exudate, size, inflammation/infection, granulation tissue, necrotic tissue (DESIGN)工具展示了相对更广泛的心理测量学评价，尤其在信度和构念效度领域，但这些工具缺乏测量误差和跨文化效度的支持数据。在所有被评价的工具中，相当比例的工具存在多个"未报告"或"不确定"的评估领域，凸显了糖尿病足评估工具心理测量学评价方面的显著缺口。

4 讨论

4.1 主要发现及其意义

当前糖尿病足评估呈现出一种悖论：尽管系统足部评估的临床需求催生了大量工具，但很少经过全面的心理测量学审查。虽然识别的工具被分为四类——筛查、风险分层、创面分类、感染或愈合监测——但跨领域重叠频繁，表明许多工具服务于相似的临床目的。例如，SINBAD或PEDIS等创面分类系统不仅分级溃疡严重程度，还纳入感染和缺血状态，从而同时作为感染监测工具发挥作用。同样，风险分层框架常依赖溃疡史或周围动脉疾病等变量，这些也是创面分类系统的核心参数，模糊了两类之间的界限。

更重要的是，这些工具背后的心理测量学证据仍然有限。内容效度、构念效度和信度是最常检验的特性，但往往被选择性和不一致地评价。测量误差——个体患者层面解读变化的核心特性——在报告的评价中几乎缺如，而反应度仅在少数工具中得到检验。尽管全球患病率至关重要，跨文化效度却被忽视。鉴于糖尿病足并发症源于神经病变、血管病变、生物力学改变和免疫功能障碍等多因素，评估工具必须在这些领域展示稳健的信度和效度，以确保准确的风险分层和知情的临床决策。有限数量的工具如DFUAS、DMIST和DESIGN经历了相对更广泛的心理测量学评价，但缺乏测量误差和反应度检验仍使其检测临床意义变化的能力存疑。这些发现反映了慢性疾病评估其他领域的普遍模式，即有限形式的验证常替代全面的心理测量学评价。

在此背景下，需考虑观察到的局限性反映的是真正的方法学缺口还是工具固有的概念设计。心理测量学和临床测量学（clinimetric）方法之间的区别尤为重要。虽然COSMIN框架为评价测量学特性提供了结构化方法，但并非本综述中的所有工具都是为了测量潜变量而开发的。某些工具——特别是为风险分层、分类或临床决策设计的工具——可能更适合被特征化为临床测量学工具。虽然研究人员使用COSMIN框架以确保对异质性工具进行一致和系统的评价，但某些特性如内部一致性或结构效度对于主要具有临床或复合结构的工具可能相关性较低。因此，特定测量领域有限的证据应谨慎解读；这些发现可能反映工具的概念意图和临床功能，而非仅仅是方法论缺陷。这凸显了在评价糖尿病足评估工具质量时平衡测量严谨性与临床适用性的必要性。

4.2 方法学质量与启示

大多数纳入综述存在中至高度偏倚风险。COSMIN评价发现无一综述为低风险，约五分之四为中等风险，其余为高风险。ROBIS评价结果更令人担忧，将近四分之三的综述归类为高偏倚风险，仅1篇符合低风险标准。常见方法学弱点包括缺失或描述不佳的方案、不完整或语言受限的检索策略，以及经验证评价框架应用不一致。若干综述缺乏双人独立评价，且质量评价结果往往未整合到结果解释中。此类遗漏增加了夸大某些工具临床效用的可能性。综合方法的多样性也阻碍了荟萃分析聚合，限制了就工具性能得出统计学稳健结论的能力。

这些方法学局限并非纯粹学术问题。由于系统综述是指南制定和政策制定的基础，综述方法学中的缺陷可能将次优工具嵌入临床路径，对患者安全和医疗资源分配产生下游影响。

4.3 临床与政策意义

心理测量学验证中的缺口对患者护理有直接后果。缺乏展示信度的工具可能在评估者之间或随时间产生不一致结果，延误高危患者的识别或促使不适当的护理升级。缺乏确立反应度的工具可能无法检测治疗效果或疾病进展，从而破坏个体层面管理和人群层面监测。从政策角度，缺乏稳健测量基础阻碍了依赖精确有效结局测量的成本效益分析，以指导采用决策和资源分配。医疗系统可能投资于临床价值有限的工具，或未能采用真正具有改善结局潜力的工具。跨文化验证的缺失进一步限制了国际糖尿病护理标准的协调，可能延续高负担人群中的不平等。

从本综合中涌现出几项优先事项：首先，急需对广泛使用的工具进行全面的心理测量学研究，尤其关注测量误差和反应度；其次，跨文化验证对于确保评估工具在不同医疗环境中的公平适用性至关重要，尤其在糖尿病负担迅速增加的中低收入国家；第三，在同一人群中评估多种工具的直接比较研究可为知情工具选择提供宝贵证据；最后，实施研究应调查在常规实践中采用心理测量学可靠工具的促进因素和障碍，确保测量质量转化为临床效用。

4.4 优势与局限性

本伞形综述应用了双重评价框架（COSMIN和ROBIS），实现了工具层面和综述层面方法学质量的并发评价。将工具限制为多篇综述中评估过的工具，通过减少孤立发现的影响增强了可靠性。聚焦于测量学特性而非仅临床结局，确保了对心理测量学稳健性的针对性评价。然而，该综合受纳入系统综述的质量和完整性限制。结局定义、报告格式和方法学方法的变异性阻碍了荟萃分析，需要叙述性综合。将分析限制于已发表的系统综述可能导致排除了更新或完善数据库的近期原始研究。COSMIN应用的差异进一步限制了跨综述的可比性。虽然四类分类基于已建立的指南和既往综述，但类别并非完全独立，尤其在感染和愈合监测与创面分类之间存在大量交叉。这一概念重叠可能限制框架的清晰度，在解读结果时应予考虑。

热点排行