《ESMO Rare Cancers》:Intra- and interobserver variability in response evaluation metrics used for localized soft tissue sarcoma
编辑推荐:
背景:局限性软组织肉瘤(soft tissue sarcoma, STS)中可靠的基于影像学的疗效评估对于指导治疗和解读临床试验结局至关重要。研究人员量化了测量者内(intraobserver)及测量者间(interobserver)变异性,并评估了使用不同测
背景:局限性软组织肉瘤(soft tissue sarcoma, STS)中可靠的基于影像学的疗效评估对于指导治疗和解读临床试验结局至关重要。研究人员量化了测量者内(intraobserver)及测量者间(interobserver)变异性,并评估了使用不同测量工具时实体瘤疗效评价标准(Response Evaluation Criteria in Solid Tumors, RECIST) 1.1和磁共振(MR)改良Choi标准对疗效分类的影响。材料与方法:10名放射科医师采用目视估测(visual estimation)、数字标尺(digital ruler)及分割(segmentation)三种方法评估19组放疗前、后MRI图像对;使用圆形或自由hand勾画肌肉感兴趣区(region of interest, ROI)对信号强度进行标准化。通过镜像病灶评估测量者内误差;测量者间误差分析分为系统分量和随机分量。通过分析疗效分类阈值跨越(threshold crossing)情况及同一或不同阅片者评估基线/随访扫描时RECIST 1.1与MR改良Choi分类的一致性,评价测量变异对临床分类的影响。结果:基于分割的直径测量显示最低变异性及最高一致性。使用分割时RECIST 1.1分类在各阅片者间一致(Fleiss' κ = 0.92–1.00),而标尺测量一致性较低(Fleiss' κ = 0.40–0.46)。MR改良Choi标准变异性更大,尤见于信号强度测量,相同扫描比较中假进展/假缓解误判率高达16%;真实临床场景(基线、随访由不同阅片者评估)下一致性亦较低(Fleiss' κ = 0.31–0.53)。结论:STS疗效评估存在显著测量者内及测量者间变异性,尤以基于强度的标准为甚。分割提取直径可提高重现性及分类一致性。需进一步改进并自动化基于强度的方法以保障临床试验中疗效评估的可靠性。
《局限性软组织肉瘤疗效评估指标RECIST 1.1与MR改良Choi标准测量者内及测量者间变异性研究》论文解读
研究背景
软组织肉瘤(soft tissue sarcoma, STS)是一类罕见且异质性强的恶性肿瘤,涵盖约70种病理亚型,常发生于四肢、躯干及腹膜后。随着新辅助放化疗及靶向治疗的开展,影像学疗效评估在局部进展期STS中愈发重要。目前大多数STS临床试验采用实体瘤疗效评价标准(Response Evaluation Criteria in Solid Tumors, RECIST) 1.1,仅依据靶病灶最大直径变化判定疗效,难以反映治疗后肿瘤内部坏死、纤维化等生物学改变;且单病灶直径测量的测量者内及测量者间变异性可能超过RECIST 1.1判定进展所需的20%阈值,导致误分类。磁共振(magnetic resonance, MR)改良Choi标准在GIST等肿瘤中显示出与病理缓解更好的相关性,其引入肿瘤-肌肉信号强度比及直径变化进行综合判定,但在STS中其重现性尚未被系统评估。因此,van der Loo等研究人员通过开展本研究,定量评估RECIST 1.1与MR-adapted Choi标准在局限性STS MRI评估中的测量者内(intraobserver)及测量者间(interobserver)变异性,明确不同测量工具(目视估测、数字标尺、分割)及信号强度归一化方法(圆形/自由手感兴趣区region of interest, ROI)对疗效分类一致性的影响,为优化STS疗效评估体系提供依据。本文发表于《ESMO Rare Cancers》。
主要关键技术方法
研究人员回顾性选取荷兰癌症研究所107例接受术前放疗STS患者中的 pretreatment(治疗前)及posttreatment(治疗后)MR影像对,经质量筛选后按肿瘤体积中位数及MR-adapted Choi标准的直径/强度反应模式分层随机抽样,最终纳入17例患者19组影像对(含2组镜像对照)。10名具不同年资的放射科医师使用定制3D Slicer界面盲法按顺序完成:①目视估测(eyeballing)肿瘤大小;②轴位最大直径数字标尺(digital ruler)测量;③手动编辑/确认肿瘤分割(segmentation)以自动提取最大直径及平均肿瘤信号强度;④放置圆形或自由手肌肉ROI以计算肿瘤-肌肉信号强度比。以全体阅片者分割所得最大直径均值为直径参考标准,全体阅片者肿瘤-肌肉强度比均值为强度参考标准。系统误差计算为个体测量相对组均值的偏差;测量者内变异用镜像病灶对计算变异系数(coefficient of variation, CoV);合并误差以方和根法合成。临床影响通过相同扫描对阈值跨越率、镜像对自身重复分类Cohen's κ及同一/不同阅片者评估基线-随访时RECIST 1.1与MR-adapted Choi四分类(完全缓解complete response、部分缓解partial response、稳定疾病stable disease、进展性疾病progressive disease)的Fleiss' κ评估。
研究结果
Systematic error(系统误差)
目视估测平均偏差11.7%、数字标尺8.5%,均倾向低估病灶大小;强度测量平均偏差<1%且无固定方向;未发现特定放射科医师存在系统性偏差。
Random error: intra- and interobserver variability(随机误差:测量者内及测量者间变异性)
测量者内变异:目视估测CoV最高(11.5%–18.0%),分割提取直径最低(CoV 0.03%–6.4%),小肿瘤分割CoV(3.7%–6.4%)高于大肿瘤(0.03%–0.4%);数字标尺小肿瘤CoV 3.1%。强度比测量中圆形与自由手ROI误差水平相近。测量者间变异随肿瘤直径增大而增加——目视估测每厘米直径SD增约1.6 mm,数字标尺增约0.8 mm,分割直径与肿瘤大小无显著相关性(微负趋势?0.05 mm/cm)。不同阅片者所选测量层面及径线端点位置也存在明显离散。
Compounded error estimates(合并误差估计)
以方和根合成测量者内与测量者间随机误差得出:目视估测复合误差16.9%–22.3%,数字标尺7.6%–11.0%,大肿瘤分割0.05%–小肿瘤分割6.4%;强度测量自由手与圆形ROI复合误差约5%–7%,不受肿瘤大小及时间点明显影响。
Clinical impact of measurement errors on response outcomes(测量误差对疗效分类的临床影响)
—Evaluating identical scans(相同扫描评估):镜像对同一阅片者两次测量中,RECIST 1.1直径阈值(≥20%增长判定进展progressive disease, PD;≥30%缩小判定部分缓解partial response, PR)未被标尺触发,分割仅1%假PD;MR-adapted Choi直径阈值(±10%)有4%–6%跨越;强度阈值(±15%)同一阅片者内跨越率达14%–16%,提示强度成分本身即带来高假阳性变异性。
—Repeat evaluation of the same scan pair(同组扫描对重复评估):RECIST 1.1数字标尺与分割均达完全一致(Cohen's κ=1.0);MR-adapted Choi同一阅片者重复分类κ=0.65–0.93,存在不一致主要源于个别阅片者。
—Real-world scenario(真实场景——同一/不同阅片者分别评基线及随访):同一阅片者用数字标尺RECIST 1.1 Fleiss' κ=0.40(完全一致率52.6%),分割RECIST 1.1 κ=1.0(100%一致);不同阅片者数字标尺RECIST 1.1 κ=0.46,分割RECIST 1.1 κ=0.92(84.2%一致)。MR-adapted Choi标准无论同阅片者或不同阅片者,数字标尺组合κ=0.31–0.40(完全一致率5.3%–31.6%),分割联合强度测量κ提升至0.50–0.54(完全一致率21.1%–31.6%),仍属中等偏低一致性,主要受制于信号强度测量变异性。
讨论与结论总结
研究人员指出,局限性STS的RECIST 1.1与MR-adapted Choi疗效评估均存在显著测量者内及测量者间变异性,其中基于信号强度的MR-adapted Choi组分变异性最大,甚至可在完全相同扫描对中产生假进展或假缓解判定。分割提取的最大直径较数字标尺及目视估测大幅降低测量变异并提高RECIST 1.1分类一致性(Fleiss' κ可达0.92–1.0),推荐作为STS试验首选测量方式;目视估测应避免使用。MR-adapted Choi标准中"直径缩小≥10%或信号强度下降≥15%"的OR逻辑放大了强度测量不确定性,且其阈值源自小样本GIST研究而未经过变异性验证,当前手动ROI强度归一化方法尚不足以满足临床试验高精度需求,需开发自动化或AI辅助的稳健强度量化方法。本研究受限于小样本分层抽样设计、无绝对金标准(采用组内共识参考)、阅片者经验不一及研究界面可能影响日常习惯等因素。综上,结论为:局限性软组织肉瘤影像学疗效评估存在显著测量者内及测量者间变异性,尤以基于信号强度的MR-adapted Choi标准为甚;基于肿瘤分割提取的直径测量可显著提高重现性与RECIST 1.1分类一致性;未来需进一步完善并自动化基于强度的方法,并建立经病理完全缓解(pathological complete response, pCR)、无进展生存(progression-free survival, PFS)及总生存(overall survival, OS)验证的STS特异性疗效评估框架。