胃癌前病变临床实践指南质量、证据与推荐强度的前沿评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年02月16日 来源：BMC Cancer 3.4

编辑推荐：

　　为解决胃癌前病变（GPL）临床实践指南（CPGs）质量不明等问题，广州中医药大学的研究人员开展相关评估研究。结果显示 CPGs 整体质量差，推荐与证据一致性欠佳。该研究为 GPL 领域 CPGs 发展提供参考，推荐科研读者阅读。

广州中医药大学科技创新中心（Science and Technology Innovation Center, Guangzhou University of Chinese Medicine）的研究人员 Jia-yin Ou 等人在《BMC Cancer》期刊上发表了题为 “Assessing the quality and integrating the evidence and strength of recommendations in the guidelines for gastric precancerous lesions” 的论文。该论文聚焦于胃癌前病变（gastric precancerous lesions，GPL）临床实践指南（Clinical practice guidelines，CPGs），对于优化相关临床实践、提高医疗质量具有重要意义。胃癌是全球范围内严重的健康问题，而胃癌前病变作为胃癌发生的重要阶段，其相关临床实践指南的质量直接影响着医生对患者的诊疗决策。对这些指南进行深入评估，有助于发现其中的不足，进而提升指南质量，为临床实践提供更可靠的依据。

摘要解读

该研究旨在系统评价胃癌前病变临床实践指南的质量，并找出其在制定过程中的改进方向。研究人员通过系统检索 PubMed、Embase 等多个数据库及指南库，筛选出相关指南。随后，运用 AGREE II、RIGHT 和 AGREE-REX 工具分别对指南的方法学质量、报告质量和推荐质量进行评估，并采用 GRADE 系统分析证据质量和推荐强度的分布。结果显示，共纳入 9 篇指南，其方法学质量平均总分为 46.22%，仅 1 篇被认为是高质量指南。在报告质量方面，部分领域报告率较高，但仍有不足。推荐质量平均总分仅为 19.11%，且多数强推荐缺乏高质量证据支持。由此可见，胃癌前病变临床实践指南整体质量欠佳，各领域质量参差不齐，推荐强度与证据质量的一致性较差。

研究背景

胃癌是全球第五大常见癌症，也是癌症相关死亡的第三大主要原因。多数胃癌患者确诊时已处于晚期，死亡率较高。然而，在胃癌的早期发展阶段，存在一些可逆的癌前病变，如萎缩性胃炎（atrophic gastritis，AG）、肠化生（intestinal metaplasia，IM）和发育异常（dysplasia），这些病变可作为胃癌早期发展的标志物。例如，萎缩性胃炎、肠化生和中轻度发育异常在 5 年内发展为胃癌的概率分别为 0.1%、0.25% 和 0.6%，而重度发育异常的概率则高达 6%。

临床实践指南对于胃癌前病变的诊疗至关重要，它能帮助医生系统评估病变风险和进展情况，并根据风险分层进行干预，从而降低未来胃癌的发生。多个国家和国际组织都制定和修订了相关指南，以提高诊疗效果。但是，指南的有效性取决于其质量、制定方法的严谨性以及制定过程的透明度等关键因素。高质量的指南能提供更合适的临床治疗和管理建议，从而带来更好的治疗效果。同时，明确指南推荐所依据的证据水平也至关重要。然而，此前针对现有胃癌前病变临床实践指南的质量评估较少，对其证据水平的全面阐释也较为缺乏。常见的指南问题包括文件复杂繁多、支持证据不明确、忽视重要利益相关者、缺乏编辑独立性以及适用性不足等。因此，开展此项研究迫在眉睫。

研究方法

文献检索：研究人员全面检索了 PubMed、Embase、Cochrane Library、Cumulative Index to Nursing and Allied Health Literature 这 4 个数据库，以及 6 个指南库，包括 National Institute for Health and Clinical Excellence、Scottish Intercollegiate Guidelines Network 等。检索时间为 2011 年 1 月 1 日至 2023 年 4 月 1 日，通过组合指南和胃癌前病变的关键词及医学主题词进行检索，详细检索策略见补充文件 1。
研究筛选：将检索到的记录导入 EndNote X7.7.1 软件，先通过软件命令 “Find duplicates” 去除重复记录，再进行人工检查。由两名研究人员根据文章标题和摘要筛选剩余记录，随后获取潜在相关指南的全文进行进一步分析，依据相同的纳入和排除标准评估全文。若两名研究人员在评估过程中存在分歧，则由第三名研究人员参与讨论，达成共识。
数据提取：两名研究人员负责数据提取，并检索所有与指南制定方法相关的补充材料，以更全面地评估纳入的指南，另一名研究人员负责检查数据的一致性。提取的指南特征包括国家、开发组织类型、是否使用指南质量工具、版本、开发方法、资金来源等。
质量评价
- 方法学质量评价：三名研究人员使用 AGREE II 工具独立评估指南的方法学质量。AGREE II 工具包含 23 个项目，分为 6 个领域：范围和目的、利益相关者参与、制定的严谨性、表述的清晰性、适用性和编辑独立性。研究人员依据 AGREE II 指南和各项目标准，采用 7 分李克特量表进行评分，1 分表示 “强烈不同意”，7 分表示 “强烈同意”，2 - 6 分表示未充分符合标准。对每个指南的各领域得分进行整理，并计算其占该领域满分的百分比。在综合评估中，整体评级项目同样采用 7 分李克特量表并计算百分比。若某指南在 AGREE II 工具的利益相关者参与、制定的严谨性和编辑独立性这 3 个领域均获得至少 50% 的满分，则被认为是高质量指南。
- 报告质量评价：使用 RIGHT 声明评估指南的报告质量。RIGHT 声明包含 7 个领域：基本信息、背景、证据、推荐、审查和质量保证、资金、利益声明和管理以及其他信息，共 22 个项目。三名研究人员通过讨论，采用三级量表对每个项目的报告质量进行评估，“完全报告” 计 1 分，“部分报告” 计 0.5 分，“未报告” 计 0 分。计算每个指南各领域的报告率以及整体报告率。
- 推荐质量评价：利用 AGREE-REX 工具评估指南的推荐质量。AGREE-REX 工具涵盖临床适用性、价值观和偏好、可实施性 3 个关键领域，共 9 个项目。三名研究人员通过面对面讨论，为每个项目评分，1 - 7 分不等，各领域得分计算方法与 AGREE II 相同。
证据质量和推荐强度分析：首先确定每个循证指南使用的分级系统，以及不同质量的证据和不同强度的推荐。广泛认可的 GRADE 系统被用作证据分级和推荐指定的理想方法。在评估过程中，排除证据质量和推荐强度不明确的推荐。若有多个质量的证据支持一项推荐，则优先考虑最高质量的证据。通过重新评估每个指南，确定循证指南中证据质量和推荐强度的分布。
统计分析：将研究人员对 AGREE II、RIGHT 和 AGREE-REX 的评分录入 Microsoft Excel，计算各领域的标准化得分和每个指南的总体得分。连续变量以均值 ± 标准差（SD）表示，分类变量以频率和百分比表示。使用 Spearman 相关性分析研究 AGREE II、RIGHT 和 AGREE-REX 领域得分之间的相关性；独立样本 t 检验评估两组之间的差异；单因素方差分析比较多组之间的差异。按版本、资金来源声明、利益冲突声明、出版国家或地区、出版时间、开发方法等因素对 AGREE II、RIGHT 和 AGREE-REX 领域及总体得分进行亚组分析。使用双向随机效应模型测试 AGREE II 工具的评分者间信度，计算组内相关系数（ICC）和 95% 置信区间（CI），并依据 Landis 和 Koch 的标准对信度水平进行分类。使用 SPSS 27 版本进行统计分析，利用生物信息学在线服务平台生成各指南评估工具得分的 Spearman 相关系数图。

研究结果

文献筛选结果：通过全面检索文献网站和指南库，共检索到 2765 条记录，从 2 个指南数据库（NICE 和 AHRQ）补充了 3 条记录。去除重复记录并初步筛选后，获得 101 个结果。经过全文文献回顾和严格筛选，最终确定 9 篇符合标准的指南。
指南特征：9 篇指南中，多数来自美国（4 篇），其次是中国（2 篇），意大利、英国和欧洲各有 1 篇。8 篇由医学协会制定，1 篇由专家小组制定。8 篇指南适用于诊断或治疗目的，2 篇适用于预防。6 篇指南披露了资金来源，5 篇声明了利益冲突，1 篇纳入了方法学家，仅 1 篇使用了指南质量工具。
方法学质量评价结果：AGREE II 量表 6 个领域的平均得分如下：范围和目的为 64.22%（SD = 16.09%）；利益相关者参与为 31.78%（SD = 13.77%）；制定的严谨性为 49.56%（SD = 21.18%）；表述的清晰性为 71.67%（SD = 12.39%），是 6 个领域中得分最高的；适用性为 24.56%（SD = 12.10%），是得分最低的；编辑独立性为 36.33%（SD = 24.78%）。所有指南的平均总体得分为 46.22%（SD = 9.24%），仅 1 篇指南被认为是高质量指南。其中，“征求目标人群（患者、公众等）的意见和偏好” 和 “考虑应用推荐可能产生的资源影响” 这两个项目得分最低，而 “推荐与支持证据之间有明确联系” 和 “明确呈现疾病或健康问题的不同管理方案” 这两个项目得分最高。三名研究人员评估的评分者间信度良好，ICC 值均大于 0.80。
报告质量评价结果：指南的平均总体报告质量得分为 54.89%（SD = 14.11%）。在 RIGHT 量表的 7 个领域中，基本信息领域的平均报告率最高，为 70.00%（SD = 21.07%）；资金和利益声明与管理领域的平均报告率最低，为 37.67%（SD = 28.70%）。其余 5 个领域按平均得分从高到低排序为：证据领域 67.78%（SD = 16.42%）、推荐领域 60.33%（SD = 12.55%）、其他信息领域 57.44%（SD = 22.15%）、审查和质量保证领域 55.56%（SD = 27.32%）、背景领域 52.22%（SD = 17.04%）。所有项目中，“描述指南的出版年份” 的平均报告率最高，为 100%（SD = 0%）；“描述指南适用的环境，如初级保健、中低收入国家或住院设施” 的平均报告率最低，为 0%（SD = 0%）。
推荐质量评价结果：指南推荐质量的平均总体得分为 19.11%（SD = 7.74%）。3 个领域按平均得分从高到低排序为：临床适用性 32.00%（SD = 13.54%）、可实施性 24.00%（SD = 7.68%）、价值观和偏好 7.00%（SD = 6.80%）。得分最高的 3 个项目为 “证据”“对目标用户的适用性” 和 “目的”，得分最低的 3 个项目均属于 “价值观和偏好” 领域，分别为 “目标用户的价值观和偏好”“政策 / 决策者的价值观和偏好”“指南开发者的价值观和偏好”，这 3 个项目的平均得分极低，几乎接近 1 分。
亚组分析结果：在对 AGREE II、RIGHT 和 AGREE-REX 领域得分及总体得分的亚组分析中，AGREE II 的 “编辑独立性” 领域在 “声明利益冲突” 亚组中存在统计学差异（p = 0.035）；RIGHT 的 “背景” 领域（p = 0.009）和 “资金和利益声明与管理” 领域（p = 0.027）在 “声明利益冲突” 亚组中存在统计学差异，“总体得分” 在 “年份” 亚组中存在统计学差异（p = 0.035）；而 AGREE-REX 得分在任何亚组中均无统计学差异。
相关性分析结果：AGREE II、AGREE-REX 和 RIGHT 领域得分之间存在部分正相关。例如，AGREE II 中的 “范围和目的”“总体得分” 和 “编辑独立性” 之间存在高度正相关（r > 0.80）；“利益相关者参与” 和 “编辑独立性” 之间也存在强正相关（r > 0.80）；“编辑独立性” 与 AGREE II 的 “总体得分” 之间同样存在强正相关（r > 0.80）。此外，AGREE II 的 “总体得分” 与 RIGHT 的 “其他信息” 之间存在正相关（r > 0.80）；RIGHT 中的 “背景” 和 “推荐” 之间，以及 “总体得分”“背景” 和 “资金、利益声明和管理” 之间也存在正相关（r > 0.80）。在 AGREE-REX 中，“总体得分”“临床适用性” 和 “价值观和偏好” 之间存在正相关（r > 0.80）。所有相关性均具有统计学意义（p < 0.05）。
证据质量和推荐强度分析结果：8 篇循证指南中，7 篇使用 GRADE 系统进行证据分级，1 篇使用 Oxford Centre for Evidence-based Medicine Levels of Evidence 系统。共确定 235 条推荐，重新评估后发现，推荐强度与证据质量的分布存在差异。64.4% 的推荐被归类为强推荐，但只有 12.4% 的证据被认为是高质量证据，且仅有 17.5% 的强推荐得到高质量证据的支持。此外，38.3% 的证据为中等质量，48.9% 为低质量，0.4% 为极低质量。其中，中国中医药学会脾胃病分会（SSDBCATCM）的指南中强推荐比例最高，且高质量证据比例也相对较高；而美国胃肠内镜学会实践标准委员会（SPCASGE）的指南中高质量证据仅占 3.0%，强推荐仅占 12.1%。

研究结论与讨论

此次研究全面评估了胃癌前病变临床实践指南的质量，发现当前指南在方法学、推荐和报告方面的总体质量较低，9 篇指南中仅 1 篇被认为是高质量指南。各指南的质量存在高度异质性，在不同领域的得分差异较大。虽然多数指南被认为是循证指南，但其中的强推荐普遍缺乏高质量证据支持。

从具体领域来看，在方法学质量方面，多数指南的范围和目的明确，但制定的严谨性有待提高，利益相关者参与不足，尤其是患者的意见和偏好未得到充分重视，适用性也较差。这可能会影响指南在实际临床中的应用，进而对患者的诊疗效果产生不利影响。在报告质量方面，基本信息的报告情况较好，但资金、利益声明和管理领域的报告存在不足，部分指南缺乏对推荐执行和实施细节的描述，不利于临床医生的应用。在推荐质量方面，价值观和偏好领域的得分极低，说明指南在制定过程中对患者需求的考虑不够充分。

通过亚组分析发现，指南制定过程中成员利益冲突的声明会影响 AGREE II 编辑独立性领域和 RIGHT “资金和利益声明与管理” 领域的得分。因此，在未来指南制定过程中，应尽可能广泛地披露成员的利益冲突，以确保指南的质量不受外部因素干扰。同时，研究还发现指南的出版时间会影响 RIGHT 评价得分，新指南的得分更高，表明随着时间推移，指南的报告实践有所改进。

此外，研究还指出虽然部分指南使用 GRADE 系统制定推荐，有助于统一证据评估和推荐，但不同指南之间证据质量和推荐强度的分布仍存在差异。这种不一致可能与指南制定的严谨性有关，未来可进一步研究 AGREE II 中制定严谨性领域得分与推荐强度和证据质量不一致程度之间的相关性。考虑到本研究纳入的指南数量较少，后续研究可纳入更多指南进行深入探讨。

总的来说，该研究通过多维度综合评估，揭示了当前胃癌前病变临床实践指南存在的不足之处，为未来指南的制定和改进指明了方向。未来指南的开发应采用更严格、透明的标准，注重推荐强度与证据质量的一致性，以提高指南质量，更好地满足患者和公众的医疗需求，推动胃癌前病变诊疗水平的提升。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号