B-EPIC:基于Transformer的B细胞免疫优势模式解码模型及其在致癌病原体疫苗开发中的应用

【字体: 时间:2025年10月08日 来源:Advanced Science 14.1

编辑推荐:

  本刊推荐:本研究首次开发了基于Transformer架构的B细胞表位(BCE)预测工具B-Epic,通过多尺度卷积分类器(MSCC)自主提取复杂特征,在多个测试数据集(包括IEDB数据集和克氏锥虫肽组)中表现出卓越预测性能(AUC分别达0.882和0.945)。该模型成功应用于幽门螺杆菌(H. pylori)疫苗候选库的构建及爱泼斯坦-巴尔病毒(EBV)泛免疫反应性肽段鉴定,为感染性疾病和癌症的免疫防治提供了创新解决方案。

  

1 引言

疫苗作为人类医学史上最伟大的成就之一,在天花根除和多种儿童疾病近乎消除方面取得了显著成功。然而,面对复杂病原体,疫苗开发仍面临前所未有的挑战,这些病原体持续造成沉重的全球健康负担。爱泼斯坦-巴尔病毒(EBV)作为多种恶性肿瘤的致病因子,每年导致约24万至35.8万新发癌症病例,但经过数十年研究仍无上市疫苗或免疫诊断试剂。同样,幽门螺杆菌(H. pylori)感染全球超过40%人口,显著增加胃癌风险,也缺乏预防性疫苗。
新型病原体及其变种的快速出现,加之复杂的免疫逃逸机制,对全球公共卫生安全构成严峻挑战。传统疫苗开发方法虽然历史上取得成功,但通常耗时耗力,难以满足紧急需求。反向疫苗学(RV)作为现代疫苗开发的主要方法,整合计算机科学与生物学,利用组学数据识别B细胞表位(BCE),显著增强了BCE识别的广度和疫苗多样性。然而,发现范围的扩大也加剧了挑战,从组学数据中准确有效地识别BCE成为RV的主要瓶颈。
虽然实验方法如噬菌体免疫沉淀测序(PhIP-seq)革命性地实现了高通量分析抗体-抗原相互作用,但仍受限于覆盖范围有限和资源消耗大。传统计算方法在预测BCE时难以捕捉免疫原性的复杂分子决定因素,导致高假阳性率,阻碍了有效的疫苗设计。这一挑战在精准诊断和治疗开发中尤为突出,因为靶标特异性至关重要。
Transformer的最新进展通过理解"蛋白质语言"改变了我们分析生物序列的能力。这些模型通过复杂的高维特征投影和自注意力机制,擅长捕捉局部和全局序列特征,在理解氨基酸(AA)模式及其功能意义方面提供了前所未有的能力。此外,Transformer直接利用蛋白质一级结构(PPS)作为输入,实现了更简化的架构,提高了效率和灵活性。

2 结果

2.1 B-Epic的开发:基于Transformer的BCE预测方法

B-Epic是一种新型计算流程,利用先进的自然语言处理技术预测BCE。训练流程始于对IEDB肽段的长度标准化,包含59,720个平衡肽段及相应的B细胞活化实验结果阳性或阴性。这些序列通过ProtTrans转化为AA嵌入,然后用于分类器训练。优化的B-Epic在不同验证中表现出强大性能,并在针对临床相关病原体(包括H. pylori和EBV)的免疫产品设计中显示出实际效用。
分类器优化过程包括两个关键阶段:不同架构的比较和模型参数调优。B-Epic构建的关键前提是确定合适的Transformer来提取BCE预测特征。ESM-2和ProtTrans都能从AA序列中提取特征。比较而言,ProtTrans在相当复杂度下表现出比ESM-2更高的AUC,表明ProtTrans是BCE预测的合理模型。随后,多尺度卷积分类器(MSCC)基于其高AUC和准确度(ACC)实现了优于其他分类器的性能指标。值得注意的是,MSCC表现出最低的假阳性率(FPR),同时保持可接受的假阴性率(FNR),这对于减少下游实验验证的冗余至关重要。
通过在定义的参数空间内进行超参数优化,确定最佳性能是在2048个卷积层输出通道、批量大小为15和学习率为1e?04时实现的。值得注意的是,核数量和核大小是MSCC的另外两个关键参数。具有3个核(大小2、4、8)的MSCC的AUC高于具有2个核(大小2、4;2、8;4、8)和1个核(大小2;4;8)的MSCC,尽管变化不如改变核大小的影响明显。具有相同核数量但不同大小的MSCC的AUC波动强调了MSCC对核大小的敏感性。在定义的参数空间内,AUC随着核大小从2增加到32(最大输入肽段长度为32)而逐渐改善。因此,在定义的参数空间内,适当增加核的数量或大小有利于提高MSCC的准确性。
五折交叉验证产生的中位AUC为0.884,证明了B-Epic在IEDB测试数据集上的强大性能。比较分析显示,B-Epic显著优于现有工具,AUC达到0.882(95% CI:0.877–0.885),而BepiPred-1.0(AUC = 0.686,95% CI:0.68–0.693)和BepiPred-3.0(AUC = 0.624,95% CI:0.617–0.631)。重要的是,B-Epic保持了显著较低的FPR,这对于提高实验成功率至关重要。B-Epic的计算效率超过了BepiPred-1.0和BepiPred-3.0,在大规模肽段分析中处理时间显著更快。B-Epic的简化架构使其特别适合RV中的高通量应用。
总之,与常用的BepiPred-1.0和BepiPred-3.0相比,B-Epic在IEDB测试数据集上表现出更高的准确性和效率,尽管其稳健性需要进一步测试。

2.2 B-Epic从随机序列中筛选出许可疫苗的靶标

为了进一步验证B-Epic的预测能力,系统评估了11个许可蛋白疫苗靶标,包括针对人乳头瘤病毒(HPV)、乙型肝炎病毒(HBV)和流感病毒的靶标。这些经过临床验证的靶标显示出显著高于随机蛋白的B-Epic评分。将分析扩展到9个额外肽疫苗靶标(长度6-57 AA),这些靶标同样显示出明显高于随机序列的B-Epic评分,证明了B-Epic识别疫苗靶标的能力。
以疫苗靶标乙型肝炎表面抗原(HBsAg;S)和病毒蛋白1(VP1)为例,利用B-Epic评估这两种蛋白对B细胞活化的潜力。值得注意的是,HBsAg在所有结构蛋白(X、P、C、E)中获得了最高的B-Epic评分。这一预测能力在HPV中得到了进一步验证,VP1与大多数结构蛋白(E1-7)相比显示出较高的B-Epic评分。作为HPV中另一个具有高B-Epic评分的结构蛋白,VP2也被证明能诱导IgG反应。这些横向比较证明了B-Epic筛选疫苗靶标的能力。
对HBsAg和VP1的详细结构分析揭示了大量具有高和中等高B-Epic评分的肽段,表明这两种蛋白中存在多个潜在的B细胞活化区域。重要的是,HBsAg中的一个许可疫苗靶标(残基124-149)与高B-Epic评分区域一致。这些详细分析解释了B-Epic筛选出HBsAg和VP1的原理。
总之,B-Epic是识别疫苗靶标的有力工具,尽管其预测能力需要在病原体肽组中进一步验证。

2.3 B-Epic从克氏锥虫肽组中识别免疫反应性肽段

从肽组中准确识别免疫反应性肽段对于BCE预测工具至关重要。B-Epic的这一预测能力在包含239,575个15聚体肽段的克氏锥虫肽组上进行了测试,克氏锥虫是南美锥虫病的病原体,会引起严重的心脏和消化系统并发症。这些肽段的特异性抗体水平(反映免疫原性)通过ELISA芯片技术使用7份南美锥虫病患者血清进行了测量。在这个作为理想基准的大规模肽组中实现高准确性将显著增强对BCE预测工具的信心。
B-Epic在7个ELISA芯片上的克氏锥虫肽组中平均AUC达到0.936,表明其在大规模肽组中具有极高的准确性(最低AUC = 0.845)。值得注意的是,B-Epic在所有7个ELISA芯片的克氏锥虫肽组中显著优于BepiPred-1.0和BepiPred-3.0,展示了其高度优越性。
这些结果证明了B-Epic从大规模肽组中发现免疫反应性肽段的卓越能力,揭示了其加速疫苗从头开发的潜力。B-Epic的稳健性通过上述三个测试数据集得到了验证,基于这些验证,下一步是开发其应用。

2.4 幽门螺杆菌潜在疫苗候选库的从头开发与实验验证

胃病原体幽门螺杆菌被列为I类致癌物,由于其日益增加的抗菌素耐药性和广泛的菌株多样性,在胃癌预防方面提出了重大挑战。鉴于传统抗生素疗法的局限性,利用B-Epic从头识别针对幽门螺杆菌感染的疫苗靶标。具有实验证据的幽门螺杆菌BCE比随机序列具有更高的B-Epic评分,支持B-Epic在幽门螺杆菌疫苗开发中的潜力。
为了展示B-Epic的实际效用,使用UniProt中幽门螺杆菌的406个蛋白质("蛋白质水平证据";PE1)从头建立了一个疫苗候选库。可及蛋白,包括位于细菌鞭毛、细胞表面和分泌蛋白上的蛋白,最有可能与宿主免疫反应相互作用。总体而言,可及蛋白比跨膜和不可及蛋白表现出更高的B-Epic评分。值得注意的是,在可及蛋白中,NAP、VACA1/2和CGA1(参与先前临床试验)具有高B-Epic评分。这些发现不仅进一步证明了B-Epic在幽门螺杆菌疫苗设计中的应用潜力,而且为基于25个可及蛋白构建疫苗候选库提供了理由。
疫苗候选库在蛋白质和肽段水平上构建。为了最小化潜在副作用如自身免疫,基于幽门螺杆菌序列与智人和其他原核生物序列的差异性评估了外源性。最终,8个可及蛋白(B-Epic评分高于10,000个随机蛋白的中位数0.02)且具有显著外源性(外源性评分 > 0)被纳入蛋白质水平库。
为了建立肽段水平库,使用步长为1 AA的滑动窗口从25个可及蛋白生成了11,972个15聚体肽段。除了外源性评分和B-Epic评分,还考虑了滑动B-Epic评分和最大EL评分(NetMHCIIpan)。包含滑动B-Epic评分是为了减轻异常值的影响,而考虑最大EL评分是由于B细胞和T细胞同时活化对抗体产生的协同效应。这一严格过滤过程(B-Epic评分 > 0.35;滑动B-Epic评分 > 0.25;外源性评分 > 0;最大EL评分 > 0.25)产生了50个高置信度疫苗候选肽段(VCP),其中9个在后续实验中得到验证。
作为一个经典例子,使用VACA1及其在疫苗候选库中的两个15聚体肽段简要解释B-Epic的操作原理。高整体B-Epic评分表明VACA1上存在多个潜在的B细胞活化区域。在VACA1内,确定了两个有前景的肽段:VACA1-616和VACA1-1223,两者都位于毒性区域(1-494)之外。这两个肽段战略性地位于β转角环中,这些结构通常与BCE可及性相关。VACA1-616位于一个通过渗透压调节破坏胃黏膜的功能域中,而VACA1-1223位于负责功能域转运的自转运蛋白区域。
库中的9个VCP被合成并KLH偶联,在小鼠中进行全面免疫研究。B-Epic评分在0.35至0.46之间的VCP与NC(B-Epic评分:?0.54;幽门螺杆菌)进行测试。经过四轮免疫后,通过ELISA,所有VCP的OD450nm吸光度相对于NC显著更高,尽管在NC中检测到可识别的抗体反应性。此外,与BepiPred工具和商业软件(出于商业原因未披露名称)相比,ELISA结果与B-Epic评分表现出更强的相关性。腹股沟淋巴结的流式细胞术和免疫荧光分析显示,VCP免疫小鼠中形成了显著的生发中心(GC)B细胞,尽管T滤泡辅助细胞群保持不变。这些结果提供了B-Epic预测准确性的强有力实验验证。
总之,使用B-Epic从头建立了全面的幽门螺杆菌疫苗候选库,包括肽段和蛋白质水平,显著提高了针对幽门螺杆菌的疫苗设计效率。具有实验证据的VCP为未来幽门螺杆菌疫苗开发工作奠定了坚实基础。

2.5 B-Epic在大型临床队列中鉴定EBV泛免疫反应性肽段表现卓越

爱泼斯坦-巴尔病毒(EBV)作为一种普遍存在的致癌疱疹病毒,协调复杂的免疫调节机制,导致多种人类恶性肿瘤和自身免疫性疾病。不同EBV毒株表现出不同的致病特征;例如,B95-8和AG876与淋巴瘤发展相关,而GD-1与鼻咽癌(NPC)密切相关。尽管一生中暴露于多种毒株,大多数人仍无症状,可能是由于有效的保护性抗体反应。有趣的是,虽然全球超过90%的人口感染EBV,但大多数人从未发生EBV相关疾病。这种广泛的病毒流行,加上健康个体中多样的抗原谱,为识别广泛保护性疫苗候选提供了前所未有的机会。
利用噬菌体展示文库作为强大的实验流程,通过系统序列比对分析,竞争性免疫筛选揭示了BCE特征。一个大型PhIP-seq临床队列包含899个个体的病毒组范围血清学谱及人口统计学信息,用于评估B-Epic识别EBV免疫产品开发的泛免疫反应性肽段的能力。对完整EBV蛋白质组的分析揭示了来自三种主要致瘤毒株(B95-8、AG876和GD-1)55个蛋白中824个不同的PhIP-seq富集肽段。值得注意的是,EBNA1是主要的泛免疫反应性蛋白,在这个大型PhIP-seq临床队列的899份人血清中具有显著高的血清阳性率(> 85%)。此外,它在三种致瘤EBV毒株(AG876、Akata和B95-8)中排名为泛免疫优势抗原,证明了其高度泛免疫反应保守性。EBNA1在这个大型临床队列中跨三种EBV毒株的泛免疫反应保守性为验证B-Epic预测泛免疫反应能力提供了关键支持。
总体而言,比较分析表明,B-Epic评分与899份血清的PhIP-seq富集相关性显著高于BepiPred-1.0和BepiPred-3.0。详细来说,肽段B-Epic评分升高预测了PhIP-seq富集增强。这些结果强调B-Epic能有效预测大型临床队列中的PhIP-seq富集,表明其预测泛免疫反应的能力。
EBNA1的免疫优势已得到充分证实,先前研究表明其与gB和gp350相比具有诱导B细胞活化的潜力,在临床前模型中抑制EBV潜伏期和肿瘤生长。与gB和gp350相比,其更高的B-Epic评分进一步支持了这一点,大多数EBNA1肽段显示出高PhIP-seq富集。相反,gp350(B-Epic评分:?0.043)据报道未能证明在接种疫苗人群中保护免受EBV感染的有效性。具有最高PhIP-seq富集的EBNA1肽段(393-448)在三种EBV毒株中中位B-Epic评分为0.263。此外,已知高免疫反应性EBNA1表位"PPRRP"(由先前发现确认)在三种EBV毒株中中位B-Epic评分为0.095。总之,B-Epic能反映EBNA1肽段(393-448)和"PPRRP"的免疫反应保守性。
基于这些结果,合成了两个具有高B-Epic评分的EBNA1肽段,在另一个包含80名NPC患者和60名HC血清的大型临床队列中测试其泛免疫反应性。具有高B-Epic评分的肽段在NPC患者中表现出显著高于HC的OD450nm吸光度。相反,具有低B-Epic评分的肽段在NPC患者和HC之间显示不显著的OD450nm吸光度差异。这些结果表明具有高B-Epic评分的肽段具有泛免疫反应性,进一步验证了B-Epic的能力。
通过严格实验在大型临床队列中验证了B-Epic筛选的EBV肽段的泛免疫反应性,突出了这些肽段在疫苗开发和患者分层中的潜力。

3 讨论

本研究推进了计算BCE预测领域,同时突出了需要改进的关键领域。B-Epic的开发展示了在预测BCE方面的重大进展,特别是其执行肽组甚至蛋白质组高通量分析的能力。这种优越性证明对免疫产品(如疫苗、免疫诊断和免疫治疗)的开发特别有价值,其中免疫原性靶标的识别至关重要。
研究中揭示了当前BCE预测计算方法的能力和局限性。虽然传统机器学习模型如RF、XGBoost和SVM已显示出前景,但其预测准确性历来一般。手动推导的特征,包括亚细胞定位、表面可及性、灵活性和亲水性,提供了有价值的结构见解,但主要指示粗略的抗体可及区域而非明确的BCE位置。与Transformer不同,传统机器学习模型难以自主提取特征,因此依赖手动推导的特征,限制了其准确性。另一方面,传统机器学习模型通常需要复杂预处理来处理AA的PPS,而Transformer可以直接处理AA序列。总之,这些突出了传统机器学习模型与Transformer相比的缺点。
此外,MSCC表现出相对于传统机器学习模型的明显优势。首先,它能够直接处理Transformer输出的AA嵌入矩阵,消除了传统机器学习模型通常需要的损失池化。其次,MSCC利用多个卷积更有效地捕捉局部和全局特征,使其能够学习比传统机器学习模型更广泛的特征。总之,这些突出了MSCC相对于传统机器学习模型的优势。
先前研究表明,大多数计算方法难以实现高于0.8的AUC值或缺乏实验验证,表明BCE预测领域处于初期阶段。值得注意的是,B-Epic在几个异质基准数据集中表现出改进的性能,具有高准确性,表明取得了实质性进展。通过快速准确预测,B-Epic满足了对精准医学日益增长的需求,从而将BCE识别的应用扩展到疫苗之外,涵盖免疫诊断工具和免疫治疗抗体。
在幽门螺杆菌应用背景下,多表位疫苗(MEV)是一种适合使用B-Epic开发的免疫产品,这一过程需要全面精确的疫苗候选库。MEV的优势包括通过化学合成稳定、大规模生产短肽;通过多个表位产生更广泛免疫反应的能力;以及避免同源区域从而减少副作用和自身免疫反应的潜力。在验证幽门螺杆菌VCP与NC的免疫反应期间,施用CpG佐剂引发了强烈的免疫反应。CpG是一种通过Toll样受体9(TLR9)刺激免疫系统的佐剂,其表达在小鼠幽门螺杆菌感染后上调,主要在巨噬细胞和树突状细胞中观察到水平升高。鉴于报道Toll样受体在感染期间识别幽门螺杆菌中的关键作用,使用CpG佐剂可以更好地模拟人宿主中TLR9介导的细菌DNA识别触发的促炎过程。结果证明了合成肽与CpG结合在未来疫苗开发中的实际潜力。此外,鉴于幽门螺杆菌感染在男性中患病率更高,雄性小鼠在我们的BCE验证试验中构成了队列的大部分。
此外,B-Epic仍面临五个挑战。首先,B-Epic在线性表位上训练,难以完全捕捉构象表位的复杂性。因此,目前使用B-Epic预测3D表位超出范围。其次,翻译后修饰是影响BCE结构的另一个核心因素。对于高度糖基化蛋白,B-Epic的准确性可能受到影响,用户应注意这一考虑。值得注意的是,由于B-Epic主要在长度12-16的肽段上训练,其高预测准确性仅限于此长度范围。超过15 AA的长序列的B-Epic评分通过其衍生的15聚体肽段使用滑动窗口计算。与步长为1的滑动窗口相比,步长2-10的窗口均方误差为0.00039–0.0024,准确性变化小,而计算效率显著提高。因此,建议用户在大数据集中筛选BCE时增加滑动窗口大小。第三,与肽段水平设置的阈值不同,FDR可以基于足够阴性样本的分布确定。然而,蛋白质水平的质量控制仍需要更多数量(具有相应B细胞活化实验结果)的蛋白质来建立可靠标准。第四,B-Epic在IEDB测试数据集中未突变/突变序列对上的性能保持稳定(AUC = 0.943)。B-Epic倾向于预测突变的最小差异,可能是因为IEDB训练/测试数据集中的大多数突变对B细胞活化影响有限。然而,对于对B细胞活化有显著影响的关键突变,B-Epic的AUC显著下降,突出了需要进一步改进的重要领域。尽管如此,B-Epic在可区分性方面仍表现出比BepiPred-1.0和BepiPred-3.0更高的AUC。第五,RNA病毒的测试数据相对其他病原体(如DNA病毒(EBV)和细菌(幽门螺杆菌和克氏锥虫))有限。尽管B-Epic在可用RNA病毒数据上仍表现出强大的预测能力,但应承认这一局限性。
基于这些有希望的结果,工作为扩展B-Epic能力开辟了几个令人兴奋的途径。B-Epic的稳健性,特别是在识别经过实验验证的BCE方面,表明其在疫苗开发中具有更广泛应用的潜力。未来发展可能包括整合先进深度学习架构、扩展SCEptRE注释、纳入额外免疫学参数以及将预测能力扩展到更多病原体。值得注意的是,3D特征对BCE预测也具有深远影响。B-Epic的未来发展将专注于弥合基于序列和基于结构预测之间的差距,使其能够从3D表位数据库中学习3D特征,可能革命性地改变计算抗体设计和疫苗开发。这些增强将进一步加强B-Epic作为高效疫苗设计有力工具的地位。

4 结论

B-Epic是首个应用Transformer进行BCE高通量准确预测的深度学习流程,满足了免疫产品开发领域的紧急需求。B-Epic的卓越能力通过三个验证研究(IEDB测试数据集、克氏锥虫肽组和许可疫苗靶标)得到了全面证明。
幽门螺杆菌和EBV分别是与胃癌和鼻咽癌相关的病原体,但两者都缺乏预防策略。基于其性能,B-Epic已应用于免疫产品开发。从头构建了幽门螺杆菌疫苗候选库,并且VCP在实验中显示能激活B细胞。疫苗候选库的构建有利于幽门螺杆菌疫苗的开发。在另一个应用中,B-Epic能够在一个大型临床队列(n = 899)中筛选泛免疫反应性肽段。值得注意的是,这些肽段在鼻咽癌患者中也比HC(n = 140)具有更高的免疫反应性,暗示它们不仅有作为疫苗的潜力,还有作为免疫诊断的潜力。
B-Epic促进了临床疾病预防工作,例如实现疫苗从头开发和免疫诊断设计,最终减轻由病原体引起的健康负担。

5 实验部分

GPU模型使用具有40 GB VRAM的A100。CPU模型使用Intel(R) Xeon(R) Platinum 8338C,具有64线程和503 GB总内存。使用A100最大化B-Epic和BepiPred-3.0的计算效率,两者都支持GPU加速。
从免疫表位数据库(IEDB)获取的BCE用于训练和测试B-Epic。训练/测试数据集的选择标准如下: exclusively linear epitopes, Homo sapiens (H. sapiens) as the host organism, and IgG-specific responses。B细胞活化实验的实验结果用于将肽段分类为阳性或阴性。
Santiago J. Carmona使用七份南美锥虫病患者血清(A1、A2、A3、B1、C1、C2、D1)通过ELISA芯片测量了472个克氏锥虫蛋白239,575个肽段的特异性IgG表达;这是一种常规可靠的方法。使用反应原性阈值3(np-neg;多个样本)和7(np-neg;每个样本)对实验结果进行二值化。"np"表示南美锥虫病患者中的ELISA信号,"neg"表示阴性对照(NC)中的ELISA信号。此外,计算滑动B-Epic评分的方法也 adapted from Santiago J. Carmona's study to reduce the impact of outliers。
从UniProt检索了336,350个幽门螺杆菌氨基酸(AA)序列。 focus was on proteins with experimental validation ("Evidence at protein level"; PE1; n = 406)。使用细胞定位术语"Secreted", "Cell outer membrane", "Cell surface", "Lipid-anchor", and "Bacterial flagellum"识别可及蛋白(n = 25)。使用细胞定位术语"Transmembrane"识别跨膜蛋白(n = 24)。
采用欠采样来平衡阳性和阴性样本。为避免由于肽段长度导致的B-Epic预测性能偏差,将阳性和阴性样本根据长度2至32 AA划分为子集。在每个长度子集(2至32 AA)内,多数类随机欠采样无放回以匹配少数类的肽段数量。
B-Epic的详细参数和安装使用指南在GitHub上提供(https://github.com/LiangJzzz/B-Epic-1.0.git)。
使用具有24个隐藏层(每层1024单元)和32个注意力头的ProtTrans,在UniRef50蛋白质序列上预训练,从蛋白质序列中提取语义特征。ProtTrans使用15% AA掩码训练,利用16,384单元的前馈网络。训练使用批量大小512、学习率0.1和梯度累积步骤8进行。使用Adam优化器优化超过991,000训练步骤, resulting in a model with 3 billion parameters。
单个AA序列使用空格分隔(例如"D E K R … D P A S")进行标记化,并通过模型的隐藏层处理。从最终隐藏层提取语义嵌入矩阵。隐藏层的形状如下:[语义特征,序列长度]。
对于分类器训练,将肽段转化为AAs嵌入矩阵。由于传统机器学习方法(多层感知器(MLP)、随机森林(RF)、支持向量机(SVM)和XGBoost)直接处理矩阵的局限性, implemented mean pooling to transform the AAs embedding matrices into a single sequence matrix。这些分类器使用scikit-learn包的默认参数实现。
独立开发MSCC以直接处理AA嵌入矩阵而无需均值池化。架构包括3个卷积核,每个提取2048个特征。随后的全连接层具有7168单元, incorporated both the raw output of ProtTrans and newly extracted convolutional features for binary classification。使用Adam优化器(学习率 = 1e?04)进行15个epoch训练,使用ReLU激活。MSCC incorporated 3 convolutional kernels with sizes of 2, 4, and 8。
基于B-Epic构建评分系统有助于更直观和可解释的BCE预测。
对于定量评估,对每个靶肽(Ta)实施以下评分方法以生成分类结果:分类 = [zTa,p, zTa,n]。
原始评分定义为阳性肽段分类的概率,由Softmax函数计算提供0到1之间的连续值,反映靶肽被分类为阳性的可能性:原始评分 = (zTa,p/(zTa,p + zTa,n)),其中zTa,p和zTa,n分别表示此二分类框架中阳性和阴性类对应的logits。
B-Epic评分通过比较靶肽的原始评分与10,000个长度匹配随机肽段的中位原始评分进行标准化。B-Epic评分表示相对于随机肽段基线的标准化B细胞活化倾向,正值表示增强的免疫原性潜力。每个靶肽的B-Epic评分计算如下:sRa = {原始评分Ra,1, 原始评分Ra
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号