简介
癌症检查点抑制[α-程序性死亡1(α-PD1)和α-细胞毒性T淋巴细胞相关蛋白4(α-CTLA4)]的出现改变了肿瘤学家如何理解和治疗晚期和侵袭性疾病(1–三).检查点抑制或阻断的初步试验证明了在晚期转移癌中获得持久的临床益处的可能性(4–6);然而,尽管免疫治疗有着巨大的前景,但大多数患者对这种治疗方式仍然没有反应(6).因此,发展预测性生物标志物以选择哪些患者可能从免疫治疗中受益最大,并进一步加深我们对检查点阻断在癌症中的成功应用的理解,已经引起了极大的关注(7–20).
一个很有希望的研究领域是通过T细胞受体测序(TCR-seq)对T细胞全序列进行广泛分析来检测T细胞的反应,其中TCR序列是通过下一代测序获得的,允许对反应的抗原决定因素进行表征(12,13,21–23).然而,这一领域的绝大多数工作仅限于描述TCR曲目的多样性(无论是克隆型还是结构层面)(24–32).以前的工作已经证明某些序列概念可以预测肿瘤类型(33)但是还没有被用于预测免疫治疗的反应,因此,我们想询问是否有序列概念(即模体)可以预测免疫治疗的反应。
我们使用来自DeepTCR(一组先前描述的深度学习算法)的指令集分类器来搜索序列概念,这些概念可以预测免疫治疗的反应(22,23).我们将DeepTCR应用于一个临床试验数据集(CheckMate-038),其中接受α-PD1或α-PD1+α-CTLA4的不能手术的黑色素瘤患者在开始治疗之前和之后进行测序,其中根据RECIST v1.1标准,基本真实标记与放射反应相对应。这一分析不仅代表了DeepTCR作为临床免疫治疗环境中的治疗前生物标志物的价值,而且重新分析了Anagnostou最近发表的TCR-seq数据等等。(21)但是,我们进一步使用这种预测模型来揭示免疫治疗影响下反应的抗原决定因素及其动力学的生物学见解。
结果
用人白细胞抗原扩展DeepTCR的全库分类器
我们首先扩展了我们先前描述的多实例学习(MIL)库分类器,允许将人类白细胞抗原(HLA)纳入TCR的特征化,以提供一个联合TCR-HLA抗原潜空间的表示(图1).这在分析人类来源的数据时尤其重要,因为个体通常具有不同的HLA背景,并且他们的肿瘤具有独特的突变相关新抗原和肿瘤相关抗原;因此,如果从具有不同HLA背景的患者中进行比较,结构上同源的tcr可能无法识别相同的肿瘤抗原。通过将HLA纳入TCR的特征化,我们通过观察到的HLA背景提供TCR的上下文,从而允许具有不同HLA背景的个体/患者之间的直接比较。
DeepTCR的指令集分类器可以预测反应
我们首先将DeepTCR应用于CheckMate-038临床试验(图S1)患者队列中的治疗前肿瘤标本。在CheckMate-038(第2部分至第4部分)临床试验中,收集治疗前肿瘤活检,并对43例患者进行TCR-seq检查,这些患者接受α-PD1单药治疗(9例患者)或α-PD1+α-CTLA联合治疗(34例患者),然后通过RECIST v1.1进行放射治疗反应。完全应答者和部分应答者(CRPR)被表示为对治疗的应答者,而稳定疾病和进行性疾病(SDPD)被表示为对治疗无反应。我们观察到,当应用DeepTCR预测免疫治疗反应时,TCR与HLA的联合表现优于单独使用TCR序列或HLA基因型信息的DeepTCR模型[曲线下面积(AUCs);TCR=0.77,HLA=0.75,TCR+HLA=0.86,随机排列检验=0.515;图2A,在图S2中按治疗队列分层。由此得出的DeepTCR的TCR+HLA模型对治疗反应的可能性的预测在这组患者中也有显著的分层无进展生存率(PFS)(图2B).与TCR或HLA模型相比,TCR+HLA模型在交叉验证评估过程中表现出较少的可变性(图S3),并且似乎HLA基因型的添加使模型能够从TCR序列数据中学习不同的信息(图S4)。我们还发现在这个队列中,DeepTCR-TCR+HLA模型与传统的生物标志物相比,后者在免疫治疗治疗的患者中表现出分层反应[AUCs;程序性死亡配体1(PD-L1;免疫组织化学肿瘤比例评分)=0.693,总突变负荷(TMB;基于外显子组)=0.772,TCR克隆性=0.642,T细胞总数=0.825;图S5]。此外,虽然在总T细胞计数(T细胞肿瘤浸润程度的替代物)和深度TCR中观察到类似的表现(基于AUC),但这些预测因子独立于多元logistic回归分析,因此似乎代表了补充信息。为了进一步验证我们的发现,我们收集了两组独立的皮肤癌患者(表示为yost和sade),他们接受检查点封闭治疗,在开始治疗前接受了整体TCR-seq或单细胞TCR-seq检查(34,35).在这两组患者队列中,当对CheckMate-038数据集进行Monte Carlo(MC)交叉验证的100个模型时,我们发现这两个队列在开始治疗前都有不同程度的反应预测特征[AUCs:yost=0.82](n=11),sade=0.61(n=19),且yost+sade=0.71(n=30)],进一步验证对检查点封锁的响应的预测签名(图2C).
无监督表征揭示了预测性抗原反应的本质
为了描述TCR序列在治疗有反应或无反应的患者中的分布,我们训练了一个变分自动编码器(VAE),这是DeepTCR框架的另一种模型部分(22),在所有数据上获得无监督特征化,以可视化[通过统一流形近似和投影(UMAP)]无响应者和响应者的分布(图3A;每个样本分布如图S6所示)。当观察所有数据时,总体分布没有差异,但我们发现当将TCR序列过滤到顶部和底部10%的预测序列时(图3B),我们能够看到反应者和无反应者之间的TCR谱的差异(图3C),说明了MIL算法“去噪”TCR指令集的功能。我们注意到,不仅应答者和无应答者的分布是多模态的,而且这些多模态在患者之间是共享的(图3D).
在治疗过程中,预测信号持续存在
接下来,我们想询问这种反应的预测性特征(发送前)是否持续存在于治疗后(发送后)的TCR库中。为此,我们将根据治疗前数据训练的模型(TCR、HLA和TCR+HLA)应用于35对治疗后样本,并检测治疗前和治疗后的受试者操作特征(ROC)曲线和AUCs(图4A).当这样做的时候,结果显示治疗前和治疗后的样本之间的表现相当,这表明即使在开始免疫治疗数周后,预测信号仍然存在。此外,我们注意到治疗前和治疗后的预测值之间有很高的相关性(图4B)提示在治疗过程中维持治疗前反应相关的储备。当比较35对治疗前和治疗后的清单时,在样本水平上检查每个类别的前10%预测序列(即CRPR和SDPD)(图4,C和E)或整个队列水平(图4、D和F),我们在治疗中显示了保守的预测性抗原反应。综上所述,这些发现表明,抗原反应不仅在对检查点阻断有反应者和无反应者之间不同,而且每一组患者都包含一组T细胞反应,这些反应可能识别出一大类结构相关的抗原,并且这些预测概念在治疗期间持续存在。
无反应的预测性特征与肿瘤特异性tcr相关
为了进一步描述抗原反应的抗原特异性,我们首先创建了残留敏感标识,如最初的DeepTCR出版物所述(22)应答者(CRPR)和无应答者(SDPD)前50名最具预测性的TCR(图5A).我们注意到,最具预测性的残基定位在序列的中心部分,这表明预测信号确实与TCR的抗原特异性有关。然后我们使用Oliveira先前发表的黑色素瘤数据集等等。(36)作者将TCR序列数据与已知特异性(即病毒与新抗原对肿瘤相关抗原)进行配对,以及获得序列的个体的已知HLA背景。我们将这些tcr通过之前训练过的DeepTCR指令库分类器来分配每个序列的响应和无响应的可能性。我们注意到,当观察不同类型抗原的可能性分布时,病毒特异性TCR[爱泼斯坦-巴尔病毒(EBV)、流感(流感)和黄热病(YF)]比肿瘤特异性TCR[T细胞识别的NeoAg和黑色素瘤抗原(MART-1)]有更高的反应可能性(图5、B和C).为了进一步验证这些发现,我们从McPas TCR数据库中提取TCR(37)交叉精确序列与CheckMate-038队列中发现的tcr相匹配,然后观察这些交叉匹配tcr的相应反应可能性。我们再次注意到奥利维拉的数据集也有类似的发现等等。(36)病毒特异性tcr(EBV、巨细胞病毒、流感和YF)比肿瘤特异性tcr(MART-1)有更高的反应可能性(图5D).当在无监督的TCR序列空间中观察这些病毒特异性TCR和MART-1特异性TCR时,我们还发现病毒特异性TCR在应答者特异性区域更为丰富,而MART-1特异性TCR在UMAP的非应答区更为丰富(图5E).
肿瘤特异性反应在无反应者中表现出更多的动态变化
最后,我们想了解这些预测tcr是否有任何独特的动态变化。为此,我们首先在克隆型水平上检测了治疗前和治疗样本中TCR序列频率的变化,作为肿瘤特异性与病毒特异性的函数(图5F).我们注意到,虽然预测的病毒特异性TCR在无应答者和应答者之间几乎没有变化,在治疗前样本中发现的肿瘤特异性TCR在无应答者和应答者中的频率显著降低,而在治疗后样本中发现的肿瘤特异性TCR在无应答者和应答者中的频率显著增加。这一发现表明,在无应答者和应答者中,肿瘤特异性克隆与病毒特异性克隆的转换速度更快。当汇总每个患者的频率变化时,我们进一步观察到相同的发现,即无反应者的肿瘤特异性克隆的更替率高于有反应者(图5G)提示无反应者肿瘤特异性反应无效,肿瘤特异性tcr在这些患者中的转换率较高。
讨论
在这项工作中,我们试图了解临床环境下免疫治疗反应的T细胞序列决定因素及其潜在的抗原特异性。虽然在这一领域已有研究了解TCR谱的数量方面(即多样性、丰度等),但尚需研究TCR谱集中可能预测免疫治疗反应的序列基序/概念。在这项工作中,我们使用并扩展了先前描述的一组TCR谱分析的深度学习算法,以创建不仅预测临床反应的模型,还允许我们理解和提出一个生物学模型,解释应答者/无应答者中TCR谱的差异。
在癌症免疫学领域,许多先前的工作试图了解治疗反应的抗原决定因素,通常从提出的表位/抗原的角度来解决这个问题。我们建立了计算管道来获取整个外显子组测序(WES)数据并预测表位(7–9,11,12,38).然而,由于从突变到免疫相关表位(即表达、蛋白质体裂解、主要组织相容性复合物结合和T细胞识别)需要许多连续步骤/算法,这些管道的准确性受到影响(39–43).直接询问TCR序列/序列的好处是,这是对免疫反应中抗原特异性反应的直接测量。然而,目前的障碍是了解TCR序列中编码的抗原信息,除了对TCR克隆进行直接的经验验证外,还没有高通量、高效的方法来检测TCR序列的抗原特异性。因此,在机器学习领域有一项努力,试图从TCR序列中提取这种抗原信息,包括DeepTCR(在本工作中使用的)等方法(22,23,44–50).尽管这一领域仍处于起步阶段,随着越来越多的数据来训练这些模型,它们有可能彻底改变我们直接从TCR全谱中理解免疫反应抗原特异性的方式,从而避免试图预测相关表位的高度可变和不准确的预测方法。在这项工作中,我们展示了诸如DeepTCR这样的方法在未来将如何被用来不仅创造可能的癌症预测生物标志物,而且从TCR库中提取有意义的生物学见解。
在本研究的第一部分,我们首先扩展我们先前的工作,将HLA整合到TCR序列的表示中。虽然TCR序列可以被认为包含了理解抗原特异性所需的信息,但它实际上包含了HLA背景下的抗原/表位信息。鉴于人类群体中HLA等位基因的高度异质性,不能保证TCR序列对不同个体的同一表位/抗原产生反应。因此,我们创建了一种方法来创建TCR序列和HLA背景的联合表示。这种联合表达则成为一种更完整和可靠的表位测量方法,并允许直接比较HLA不匹配个体之间的TCR库。将此方法应用于反应预测时,我们发现结合TCR序列信息和HLA背景确实可以提高模型的预测能力。
虽然该模型的预测能力是我们方法的一个关键优势,因为我们能够将TCR信息的总和聚合到一个完整的集合中,以预测有关治疗反应的相关信息,大部分的工作都集中在模型的可解释性上,希望能揭示之前未被认可的生物学观点。我们首先使用一种完全无监督的TCR序列表示方法VAE来描述和可视化响应的预测特征。当我们这样做时,我们发现我们的监督MIL模型确实从TCR曲目的背景“噪声”中提取了相关的预测特征。在使用无监督方法的正交验证方法时,这给了我们进一步的证据,证明我们的监督模型并没有对数据过度拟合,当观察每个患者中预测序列的分布时,我们能够观察到应答者/无应答者中保守的TCR序列特征在多个患者中共享。这使我们不得不提出一个不可避免的问题:这些预测性TCR序列的特异性是什么。通过使用两个先前发表的具有已知TCR与特异性关系的数据集,我们发现应答者的预测信号丰富,类似于病毒反应,而无应答者则富含类似肿瘤特异性反应的信号。虽然最初出乎意料,但我们推断病毒信号代表肿瘤内的背景T细胞反应[正如其他研究所证实的那样](36)]肿瘤特异性T细胞在无应答者中的聚集与本底病毒信号有关。根据先前发表的数据集,TCR序列不仅与抗原特异性有关,而且与表型相关,我们推断肿瘤特异性T细胞的聚集代表了可能已经功能失调的终末分化效应T细胞,因此,它们在无应答者中的积累。
当研究这些抗原特异性反应在免疫治疗开始前后的动态变化时,虽然抗原特异性信号在治疗中没有改变,但我们惊讶地发现,在无反应的患者中,肿瘤特异性T细胞的转化率更高。综合所有这些观察结果,我们提出了一个免疫治疗动力学和抗原特异性特征的生物学模型,以及这些特征在治疗应答者和非应答者之间的差异(图6).值得注意的是,无应答者的特征是功能失调的肿瘤特异性T细胞在接受免疫治疗时会经历更高水平的转换,这表明T细胞对肿瘤的持续反应是徒劳的。相反,应答者在肿瘤内维持现有的肿瘤特异性反应,其功能通过免疫治疗得以挽救,因此,肿瘤中已经存在的T细胞能够有效地发挥其抗肿瘤活性。
最后,这个生物学模型与之前在该领域的转录组学研究中已经报道的结果是一致的。在奥利维拉的研究中等等。(36),无反应的患者的特征是高水平的肿瘤反应性T细胞的积聚,而在无反应的黑色素瘤患者中,T细胞水平显著升高。这种特异性,即使在高频率下,也不能产生有效的抗肿瘤反应,因为在肿瘤微环境中通过单细胞RNA测量的高水平衰竭(36).与此观点一致,对检查点阻断有反应的黑色素瘤患者,其肿瘤标本中假定的病毒特异性T细胞比例较高,而无反应的患者则以累垮的肿瘤浸润淋巴细胞为特征(35,36).
虽然这项研究的发现证明了一种将可解释机器学习应用于TCR谱分析的方法和人们可以欣赏的生物学见解,但这项工作肯定存在局限性。本研究最大的局限性是本研究中使用的训练/验证队列规模较小。深度学习模型因其过度适应数据的能力而臭名昭著,在训练这些模型时需要考虑很多因素,以便它们不会过度适应虚假或不相关的信息。为了解决这个主要的限制,我们确保在交叉验证期间只评估测试集中模型的性能。此外,通过用VAE(一种完全无监督的方法)来证实这种预测序列特征的发现,我们能够提供进一步的证据,证明我们的监督模型并没有对数据过度拟合。最后,我们验证了CheckMate-038队列在接受检查点阻断治疗的另外两个临床队列中的预测特征,进一步验证了观察到的发现。
综合起来,这些发现突出了在深度学习中的实用性,以确定TCR谱的关键特异性特征及其在免疫治疗影响下的动态以及它们与临床反应的关系。在这一领域的进一步工作可能会利用这些描述的方法来开发生物标记物,并有助于理解和开发在精确肿瘤学时代更好的靶向治疗。
方法
CheckMate-038实验模型和参与者详细信息
CheckMate-038是一个多部门、多机构、机构审查委员会批准的前瞻性研究(CA209-038;NCT01621490)。第2-4部分的患者每2周接受一次nivolumab(3mg/kg)(n=21)或nivolumab(1mg/kg)+ipilimumab(3mg/kg),每3周×4次,然后每2周使用nivolumab(3mg/kg)(n=62),直至进展或最多2年。大约每8周进行一次放射治疗反应评估,直到病情进展。通常在4周后,通过计算机断层扫描证实病情进展。患者的肿瘤反应由RECIST v1.1定义。除非另有说明,否则对治疗的反应表明总体反应最好。所有患者在开始治疗前(第一次给药前1-7天)对转移灶进行活检。将肿瘤组织分成福尔马林固定、石蜡包埋(FFPE)或用RNA储存(Ambion)进行后续RNA/DNA提取。在中心实验室检测肿瘤细胞表面的PD-L1表达(dako28-8抗体)。临床试验方案及其修正案得到了相关机构审查委员会的批准,并根据赫尔辛基宣言和国际会议关于良好临床实践的协调准则进行了研究。所有患者在进行任何研究程序前签署书面知情同意书。
CheckMate-038 TCR seq和HLA数据生成
在开始治疗前收集肿瘤活检样本,并将其储存在rnater中。提取DNA并提交给适应性生物技术公司进行调查水平的TCRβ链测序,其中靶向扩增子库通过多重聚合酶链反应靶向所有TCRβ链V/D/J基因片段,并使用Illumina HiSeq系统进行测序(51,52).以前由Anagnostou分析的单个TCR序列的数据等等。(21)包括V/D/J基因片段鉴定和CDR3-β序列,通过DeepTCR进行分析。肿瘤活检DNA也被发送到WES(个人基因组诊断)以确定TMB,并使用OptiType推断患者的HLA基因型(53).来自同意沉积的患者的数据将被提交到欧洲基因组表型档案(21).
数据管理
TCR-seq文件作为原始tsv/csv格式文件从手稿中引用的各种来源收集。测序文件被解析,以获取CDR3的氨基酸序列后删除非生产性序列。将核苷酸序列不同但氨基酸序列相同的克隆聚集在一个氨基酸序列下,并对它们的读数进行求和以确定它们的相对丰度。在解析代码中,我们还指定忽略使用非国际统一的纯化学和应用化学字母(*,X,O)的序列,并删除长度大于40个氨基酸的序列。为了算法的目的,最大长度可以改变,但是我们选择了40,因为我们不期望任何实数序列比这个长度长。
训练DeepTCR曲目分类器
在开始治疗前,为了确定肿瘤微环境TCR序列中反应的预测性特征,我们使用了DeepTCR(v2.1.6),一个揭示T细胞序列中序列概念的深度学习框架(22).我们对现有的软件做了一个重大的改变,允许在TCR的表示中加入HLA信息。这是通过将观察到的给定TCR的HLA背景表示为一个分类的multihot编码变量作为神经网络的输入来实现的。该方法的所有其他方面与DeepTCR首次提出的原稿中所述的一样。值得注意的是,我们使用TCR序列信息(CDR3-β和V/D/J)、HLA或TCR+HLA信息,在CheckMate-038数据上拟合指令集分类器,以证明不同类型的信息,每个输入都有助于模型的预测能力。对于测试的每种类型的输入,在MC交叉验证期间使用相同的精确训练/测试分割,以便在比较使用不同输入数据训练的模型时进行公平的比较。此外,由于CheckMate-038数据集的小性质,训练必须以防止剧目分类器过度拟合的方式完成。因此,为了在这些数据集上训练指令集分类器,我们使用了MC交叉验证,其中在模型训练期间使用了铰链损失,这阻止了模型进一步将任何给定样本的损失降低到定义的阈值以下。这种目标函数背后的思想是,一旦样本预测足够正确,就不鼓励网络进一步降低其损失,从而减少对训练数据的过度拟合。一旦达到预定阈值,将停止具有该铰链损失的模型训练,并在保持MC交叉验证的情况下,对该列车/测试分割的测试数据进行模型性能评估。然后我们使用了一种自举方法,我们对MC预测进行了5000次抽样,以近似AUC附近的置信区间。DeepTCR模型的所有超参数都可以在公共可用的GitHub存储库中找到,如下所示(数据和材料可用性)。
验证队列
TCR-seq数据是从两个先前出版的手稿中收集的(34)还有莎德(35)分别由基底细胞/鳞状细胞癌和黑色素瘤患者组成。yost数据集包括来自11名患者的样本,这些患者的TCR序列可从治疗前活检中获得,并可在immuneACCESS上获得;sade数据集包括19名患者的样本,这些患者的TCR序列可从治疗前活检获得,并在原始出版材料中提供。这两个队列均由接受检查点阻断治疗的患者组成,并通过RECIST标准对治疗的临床反应进行评估,其方式与CheckMate-038队列中进行的方法相似。然后使用适合CheckMate-038队列的DeepTCR指令库分类器对这两个独立的临床队列中的患者进行指令库级别的推断,并通过ROC和AUC测量评估预测性能。
通过VAE和UMAP进行无监督陈述
为了提供所发现的预测特征的可解释性,我们使用DeepTCR-VAE对CheckMate-038队列中发现的所有tcr进行无监督降维。每个进入VAE的实例都由CDR3-β、V/D/J基因使用和TCR的HLA背景共同定义。使用VAE,这个输入在通过UMAP(python包UMAP learn的默认设置)进一步简化为二维之前被转换成128维的潜在向量。为了可视化的目的,由于每个TCR都有一个与之相关的频率,因此利用这些信息来构造二维直方图,以可视化UMAP潜在空间中这些TCR的密度。
后处理推理
为了将模型从治疗前队列应用到治疗后队列,我们使用了一种方法来防止性能特征的过度膨胀,因为治疗前和治疗后的样本高度相关(来自同一患者)。为了做到这一点,我们只对治疗后的个体使用模型,这些模型没有针对这些个体治疗前的肿瘤进行训练。换言之,当模型在前处理数据的给定分区上训练,然后在前处理数据和配对测试集的后处理数据的另一个分区(测试集)上进行测试时。这种类型的交叉验证阻止了模型对接受过训练的患者做出预测,无论是对治疗前还是治疗后的样本进行训练。
将预测模型与已知抗原特异性联系起来
为了检验应答/无应答预测信号的抗原特异性,我们收集了两个先前发表的数据集,这些数据集对抗原/表位的CDR3序列进行了经验验证。由于我们的临床队列由黑色素瘤患者组成,我们首先使用一个黑色素瘤相关的数据集,其中作者建立了TCR序列、抗原特异性和基因表达表型之间的联系(36).我们还使用McPas-TCR,一个包含TCR序列及其已知特异性的更大的数据集(37).黑色素瘤数据集(36),因为这个数据集有CDR3-β序列,V/D/J基因的使用情况,以及个体的HLA背景,所以我们能够通过预先训练的模型来对每个TCR进行评分。在我们对McPas TCR数据库的分析中,为了最大限度地增加我们队列患者和数据库中发现的TCR的重叠,我们将临床队列中的TCR(具有预测可能性)与McPas TCR数据库中仅在CDR3-β序列水平上的TCR进行交叉匹配,以将已知的抗原特异性TCR与其应答/无反应的可能性相匹配。
作为反应可能性函数的克隆动力学
在CheckMate-038队列中,由于存在治疗前和治疗后两组患者的活检,我们希望根据反应预测模型提供的信息来询问克隆动力学。为了做到这一点,我们将所有的TCR序列分为10个序列类别,这些序列代表了我们模型预测的病毒-肿瘤特异性TCR的光谱。然后我们进一步将这些序列分为应答者(CRPR)还是无应答者(SDPD)。然后我们观察了它们在治疗前或治疗后的克隆动态。对于治疗前活检中出现的TCR序列,我们观察了治疗后相对于治疗前频率的频率变化,对于治疗后活检中看到的TCR序列,我们观察了治疗前相对于治疗后频率的变化。为了进一步量化样本/患者水平上TCR的动态,我们将每个患者的频率变化沿着病毒到肿瘤的谱线聚集到每个患者身上,以输出每个患者频率的净变化。
统计检验与机器学习模型
所有应用于数据的统计检验都是用scipy实现的。统计模块。利用scikit-learn实现了经典的机器学习技术和性能指标。