编辑推荐:
为解决 HRD 分子检测成本高、周转时间长的问题,研究人员开展基于 H&E 染色病理图像的 HRD 预测研究,提出 SuRe-Transformer 模型,其预测 tHRD 的 AUROC 达 0.887±0.034,为 HRD 预测提供新途径。
乳腺癌作为全球女性发病率最高的恶性肿瘤,其治疗效果与精准的生物标志物检测密切相关。同源重组修复(HRR)是细胞修复 DNA 双链断裂的重要通路,同源重组缺陷(HRD)已成为乳腺癌中多聚 ADP 核糖聚合酶抑制剂(PARPi)和铂类化疗的关键生物标志物。然而,目前 HRD 检测主要依赖分子生物学检测,存在成本高、周转时间长等问题,尤其在资源有限的地区难以普及。因此,开发一种经济、便捷且有效的 HRD 预测方法具有重要的临床意义。
为解决上述问题,中国科学院计算机网络信息中心、中国科学院大学等机构的研究人员开展了基于苏木精 - 伊红(H&E)染色全玻片图像(WSIs)的 HRD 预测研究。他们提出了一种名为充分且具代表性 Transformer(SuRe-Transformer)的新型模型,并在《npj Precision Oncology》上发表了相关研究成果。
研究人员主要采用了以下关键技术方法:首先,利用自监督学习方法 DINO 在大规模乳腺癌 WSI 数据集上预训练,提取图像块特征嵌入;其次,通过 K-means 聚类和簇大小加权采样方法,从 WSI 中选取具有代表性的图像块,确保输入模型的特征能够充分反映 WSI 的全局信息;最后,引入径向衰减自注意力(RDSA)机制,扩展 Transformer 的输入序列长度,有效捕捉图像块之间的长程依赖关系。研究使用的数据集包括来自癌症基因组图谱(TCGA)的乳腺癌 WSIs,并在多个外部队列(如北京谱尼医学临床检验所的乳腺癌队列、TCGA 的卵巢癌和胰腺癌队列)中进行了验证。
研究结果
1. SuRe-Transformer 与现有方法的性能比较
在 TCGA 乳腺癌数据集上,通过 5 折交叉验证,SuRe-Transformer 在二元分类(mHRD)和三元分类(tHRD)中均表现出优于现有方法的性能。对于 tHRD 预测,SuRe-Transformer 的受试者工作特征曲线下面积(AUROC)达到 0.887±0.034,F1 分数为 0.820±0.034,显著高于 DeepSMILE、DMIL 等基于注意力的多实例学习方法。
2. 外部验证与跨癌种泛化能力
将在 TCGA 乳腺癌数据集上训练的 SuRe-Transformer 模型应用于外部乳腺癌队列(北京谱尼医学)和其他癌种(TCGA 卵巢癌、胰腺癌),结果表明模型具有良好的泛化能力。例如,在预测北京谱尼医学乳腺癌队列的 tHRD 时,AUROC 为 0.750,F1 分数为 0.692;在预测 TCGA 卵巢癌的 mHRD 时,AUROC 为 0.713,F1 分数为 0.664,提示 HRD 相关的形态学特征可能在不同癌种间具有共性。
3. 基因突变生物标志物预测
SuRe-Transformer 不仅能预测 HRD 状态,还能从乳腺癌 WSIs 中预测多种基因突变生物标志物,包括 TP53、GATA3、MAP3K1、ERBB2、BRCA1 和 PIK3CA。其中,预测 TP53、MAP3K1、ERBB2、BRCA1 的 AUROC 均超过 0.84,显示出该模型在基因水平预测上的有效性。然而,PIK3CA 基因突变的预测性能相对较低,可能与该基因突变频率高且错义突变比例大导致模型过拟合有关。
4. 关键组件的消融研究
通过消融研究评估了 SuRe-Transformer 各组件的重要性。结果表明,簇大小加权采样显著提高了模型性能,与随机采样相比,tHRD 的 AUROC 提高了 0.014;RDSA 机制有效缓解了输入序列过长导致的过拟合问题,当输入序列长度为 1200 时模型性能最佳;基于聚类的位置嵌入模块比传统的 1D 和 2D 位置嵌入更能捕捉图像块之间的相对关系,使 tHRD 的 AUROC 提高了 0.010。
研究结论与讨论
本研究提出的 SuRe-Transformer 模型通过簇大小加权采样和 RDSA 机制,有效解决了传统 Transformer 在处理 WSI 时面临的计算复杂度高和过拟合问题,能够从 H&E 染色病理图像中准确预测 HRD 状态及多种基因突变生物标志物。该模型在多个内部和外部队列中表现出优异的性能和泛化能力,为乳腺癌的精准诊疗提供了一种经济、便捷的新工具,尤其在资源有限的地区具有重要的应用价值。
然而,研究也存在一定局限性。例如,模型在外部测试数据集上的性能较内部测试数据集有所下降,未来可通过域适应技术进一步优化;此外,模型在处理罕见基因突变和低质量图像时的性能仍需提升。尽管如此,SuRe-Transformer 的提出为基于病理图像的生物标志物预测开辟了新方向,有望推动深度学习在临床病理中的广泛应用,为实现乳腺癌的个性化治疗提供有力支持。