FFPErase:机器学习框架实现福尔马林固定石蜡包埋样本的全基因组测序临床级分析
《Nature Communications》:Enabling whole genome sequencing analysis from FFPE specimens in clinical oncology
【字体:
大
中
小
】
时间:2025年11月28日
来源:Nature Communications 15.7
编辑推荐:
本研究针对福尔马林固定石蜡包埋(FFPE)样本全基因组测序(WGS)数据质量低、假突变多的问题,开发了机器学习框架FFPErase。通过对56对FF/FFPE匹配样本的分析,证明该工具能有效过滤单核苷酸变异(SNV)和插入缺失(indel)假突变,将检测精度提升至92%,同时保持89%的灵敏度。与FDA批准的Panel检测相比,FFPErase不仅保留99%的临床相关突变,还额外发现24%的重要变异,特别是结构变异(SV),为FFPE样本的WGS临床转化提供可靠解决方案。
在精准医疗时代,全基因组测序(WGS)已成为癌症分子分型的重要工具。然而,临床实践中广泛使用的福尔马林固定石蜡包埋(FFPE)样本却给WGS应用带来了巨大挑战。这些样本中的DNA往往高度片段化(225-300 bp),远低于WGS最佳插入片段大小(360-480 bp),导致测序覆盖度不均和假突变频发。据统计,FFPE处理会使各类突变的假阳性富集达20倍,严重影响了同源重组缺陷(HRD)等关键生物标志物的检测准确性。
目前,60%的癌症患者无法通过靶向Panel测序获得有临床意义的发现,尤其是罕见癌症患者。虽然WGS能够全面检测单核苷酸变异(SNV)、插入缺失(indel)、结构变异(SV)、拷贝数变异(CNV)以及肿瘤突变负荷(TMB)、微卫星不稳定性(MSI)和HRD等复杂突变特征,但FFPE样本的质量问题一直制约着其临床应用。
Memorial Sloan Kettering癌症中心的Dylan Domenico等研究人员在《Nature Communications》上发表了最新研究,通过对56对FF/FFPE匹配样本的WGS数据分析,系统评估了FFPE损伤对突变检测的影响,并开发了机器学习工具FFPErase,为FFPE样本的WGS分析提供了创新解决方案。
关键技术方法包括:从三个独立中心(MSKCC、牛津大学医院、BC癌症中心)获取56对FF/FFPE匹配样本和正常对照的WGS数据;采用集成变异检测策略,使用至少三种算法进行SNV、indel和SV检测;开发基于随机森林的FFPErase分类器,使用33个SNV特征和29个indel特征进行假突变过滤;通过交叉验证和独立数据集验证模型性能;与FDA批准的MSK-IMPACT面板检测进行临床验证。
研究人员收集了来自三个中心的168个样本的匹配WGS数据,包括56个患者三联组(FF、FFPE、种系对照)和16种癌症类型。数据显示FFPE样本的平均覆盖度为51x,而FF样本为93x,覆盖度下降明显。FFPE文库的平均插入片段大小(166-358 bp)明显短于FF样本(356-503 bp),且GC偏好性增加,表明FFPE衍生的WGS数据有效覆盖度和文库质量较低。
研究发现,采用集成变异检测策略可显著降低FFPE特异性SV检测的假阳性率(92%降至12%),但对SNV和indel的改善有限,FFPE特异性突变的中位比例仍高达62%和73%。FFPE样本中SNV和indel的检测数量分别是FF样本的2.0倍和2.4倍,将小突变检测的精确度降低至SNV为50%,indel为62%。
FFPE损伤显著影响了HRD等关键生物标志物的检测。在FF数据中被HRDetect和CHORD同时标记为HRD阳性的7个样本中,对应的FFPE数据有7/7被HRDetect错误分类,4/7被CHORD错误分类。全基因组TMB在FFPE数据中升高(中位数:10.3),但编码区TMB未受影响,表明假突变主要发生在非编码区。45/56的FFPE样本中SBS37特征贡献度显著增加(中位比例:23.4%),而对应FF样本仅为12/56(中位比例:3.6%)。
FFPE中观察到的独特突变模式(如SBS37特征富集和重复介导的缺失)为开发信息学解决方案提供了机会。研究人员设计了机器学习分类器,采用三种训练策略:单中心训练/测试、跨中心训练/测试以及留一法交叉验证。所有模型均采用平衡随机森林架构,在SNV和indel分类中分别达到93-94%和89-91%的中位准确率。
使用FFPErase过滤后,全基因组TMB中位数从10.3降至2.9,更接近FF的TMB估计值(中位数:3.5)。FF和FFPE间SNV特征的余弦相似性提高至0.94,SBS37等FFPE特异性特征的贡献显著降低。7/7的HRD阳性肿瘤在FFPE中被正确分类,HRD检测准确性大幅提升。
与FFPolish和FFPESig等现有工具相比,FFPErase在假突变检测中达到95%的最高准确率,匹配FF和FFPE背景的余弦相似度为0.99,同时保留了95%的共享SNV。在34例有FDA批准的MSK-IMPACT临床测序数据的验证中,FFPErase保留了99%的临床相关事件,并在41%的患者中发现了额外的临床相关事件,主要涉及SV。
临床用例:FFPE假突变克隆过滤指导卵巢癌PARP抑制剂耐药分析
研究人员展示了一例具有BRCA2种系突变和对铂类药物及PARP抑制剂(PARPi)存在异质性反应的卵巢癌患者案例。通过FFPErase过滤,将FFPE样本的TMB从20.19修正至4.44,HRDetect评分从37%提升至99%,准确识别了与治疗耐药相关的克隆,揭示了BRCA2逆转突变和顺铂特征(SBS31/35)的富集。
本研究通过开发FFPErase这一创新工具,成功解决了FFPE样本WGS分析中的关键技术瓶颈。该工具不仅显著提高了突变检测的准确性,还恢复了HRD等重要生物标志物的检测能力,为FFPE样本在临床WGS中的应用铺平了道路。随着测序成本的不断降低和分析工具的日益完善,FFPErase有望推动WGS在更广泛临床场景中的应用,加速癌症精准医疗的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号