编辑推荐:
本文通过系统回顾 2016 - 2024 年早期乳腺癌(EBC)的健康经济(HE)模型研究,发现新验证工具出现后,HE 模型验证工作的报告情况改善不明显。仅输入数据的表面效度报告有所提升,其他方面依旧不足。这一现状需引起重视并改善。
1. 研究背景
模型 - 基于的健康经济(HE)评估旨在通过整合临床、流行病学和经济证据,评估特定人群和时间段内健康干预方案的成本与健康效果之间的权衡。HE 模型的开发涵盖概念框架构建、计算机化模型实现、数据填充以及模型输出合理性判断这四个主要方面。每个环节都至关重要,且都应经过验证,以确保模型结果的可信度,赢得决策者和研究人员的信任。
然而,过往研究显示,HE 模型验证工作的报告情况并不乐观。2016 年,de Boer 团队对季节性流感(SI)和 EBC 的 HE 模型验证报告进行系统回顾,发现 2008 - 2015 年间,约三分之一的出版物未报告任何主要经济建模方面的验证工作。2020 年,Zhang 团队评估了国际药物经济学与结果研究协会(ISPOR)和医学决策制定学会(SMDM)的建模实践共识指南发布前后(1997 - 2012 年和 2013 - 2016 年)报告质量的变化,结果表明报告质量并无显著改善,预测效度、交叉效度和表面效度的报告表现最差。
造成这种报告不足的原因可能有多种,比如模型使用者和建模者对报告验证工作的重要性认识不足;缺乏时间和预算进行模型验证;研究人员对 “验证” 概念不够熟悉,误将单向和概率敏感性分析(OWSA 和 PSA)当作模型验证方法等。
自 2012 年 ISPOR - SMDM 最佳实践指南发布后,多种新的验证工具应运而生,包括涵盖多个模型方面验证的通用工具、专注于计算机化模型验证的工具、针对特定验证方面(如表面效度或外部效度)的工具,以及用于模型验证协作的工具。本研究旨在量化这些新验证工具引入后,HE 模型验证报告的变化情况,探究验证是否已成为报告的必要部分,以及当前经济模型验证工作的开展和报告方式。
2. 研究方法
本研究在 PubMed 和 Embase 数据库中进行系统文献检索,检索 2015 年 1 月至 2024 年 2 月期间发表的关于 EBC 的 HE 建模研究。为便于与 de Boer 团队的研究进行比较,采用了相同的搜索策略和纳入标准,但限定了出版物的时间范围。排除综述论文、荟萃分析、信件,以及关于转移性乳腺癌、乳腺癌筛查和诊断系统分期的研究。
记录经去重后,由 KA 和 ICR 在 Rayyan 软件中筛选摘要,有分歧的记录通过共识解决。纳入的记录导出至 Zotero 进行全文审查,排除错误纳入的记录。运用 AdViSHE 工具对模型验证工作进行评估,AdViSHE 涵盖概念模型、输入数据、计算机化模型、操作以及其他五个验证类别,每个类别都有相应的效度测试和待回答问题。
除比较本研究与 de Boer 团队研究中报告验证工作的研究比例外,还评估验证工作的报告是否系统(即是否有专门的模型验证章节或段落,或是否说明使用了验证工具),以及验证报告的详细程度和是否提供验证后的调整信息。使用 R 版本 4.3.2 中的两比例 z 检验,比较两个时间段内各 AdViSHE 工具验证类别报告比例的差异是否具有统计学意义。为考量新验证工具对报告的潜在影响,将 2015 年 1 - 12 月(AdViSHE 发布前)符合条件的记录纳入 de Boer 团队审查的验证类别中,2016 年 1 月起的所有符合条件的研究纳入本研究进行前后对比。
3. 研究结果
系统文献回顾最终确定了 2015 年 1 月至 2024 年 2 月期间的 85 项相关研究。纳入研究大多(80 项)为成本 - 效用分析,主要结果指标为质量调整生命年(QALYs)和生命年(LYs),其余为成本 - 效果分析(4 项)和成本 - 效益分析(1 项)。使用的模型类型包括 Markov 模型(55 项)、微观模拟模型(10 项)、Markov 模型与决策树结合(7 项)、决策树(5 项)、半 Markov 模型(3 项)、分区生存模型(3 项)和 Markov 宏观模拟模型(1 项),有 1 项研究未明确模型类型。
在新验证工具和方法引入后,除输入数据的表面效度(B1)外,各验证类别的报告数量并未显著变化。输入数据表面效度的报告比例从之前的 2%(1/48)提升至 20%(16/78);而用于验证模型输入数据的统计测试(如选择外推生存曲线的赤池信息准则(AIC)和贝叶斯信息准则(BIC))的报告比例却从 13% 降至 3%(2/78)。
概念模型的表面效度(A1)和交叉效度(A2)虽有改善,但并不显著,报告比例分别为 10%(8/78)和 12%(9/78),与之相比,之前分别为 8%(4/48)和 6%(3/48) 。计算机化模型的验证报告依然较少,之前无研究报告,本研究中仅有 2 项研究提及外部审查(C1),2 项研究报告了极值测试(C2) 。
模型结果与其他类似决策问题模型的结果(D2)以及实证数据(D4)的比较,在本研究中的报告比例分别为 53%(41/78)和 36%(28/78),之前分别为 50%(24/48)和 42%(20/48) 。两个时间段内均无研究报告使用替代输入数据对模型结果进行验证(D3),也没有研究报告对所有四个主要建模方面(A - D)进行验证。
在 78 项研究中,只有 12 项(15%)采用了系统的验证方法,其中 5 项报告使用了验证工具或指南,但仅有 1 项研究报告了某一验证类别的结果。美国的研究比非美国的研究更常系统地报告验证情况。整体上,只有 9 项研究(12%)在出版物中纳入了验证结果,7 项研究(9%)设有专门的验证章节,且通常位于 “方法” 或 “结果” 部分,仅 1 项研究在两个部分都报告了验证内容。当报告操作验证(特别是与其他(实证)研究的比较(D2、D4))时,主要出现在出版物的 “讨论” 部分。模型类型似乎对报告工作没有显著影响。
4. 研究讨论
新验证工具和方法引入后,仅输入数据表面效度的报告有显著改善,概念模型和计算机化模型的验证报告虽有改善但仍处于较低水平。概念模型验证报告少可能是因为 EBC 是常见研究领域,作者可能认为无需报告。而计算机化模型验证报告极低,可能意味着对编程模型的验证测试开展不足。同时,技术错误时有发生,鼓励进行验证和报告十分必要。一些新的验证工具虽已出现,但由于引入时间较晚,模型开发者可能还需要时间熟悉和应用。
此外,对 “验证” 概念的混淆也可能导致整体验证工作不足,敏感性分析不能替代模型验证。在使用验证工具时,实际问题和理解不足也会影响验证报告,例如不同模型类型中输入与结果验证的界定不清晰,以及研究人员对验证方法和工具不够熟悉。而且,目前发表 HE 模型研究时,对模型验证报告的要求并不严格,期刊和卫生技术评估(HTA)机构应发挥更大作用,制定系统的报告要求和推荐合适的工具。
本研究存在一定局限性,仅回顾了 EBC 这一疾病领域,结果和结论在推广至其他疾病时需谨慎。此外,模型拟合测试的报告在本研究中较低,可能与回归分析并非适用于所有 HE 评估有关。AdViSHE 工具虽涵盖模型开发的主要领域,但模型可信度还受其他因素影响,如利益冲突报告等。
5. 研究结论
2016 年以来新验证工具的引入,并未使 EBC 的基于模型的 HE 评估中验证工作的报告在统计学上显著增加。透明和系统的验证实践报告对确保这些模型的可靠性至关重要,应成为标准做法。期刊和 HTA 机构需要积极发挥作用,明确验证工作的报告要求和标准。