编辑推荐:
为解决蛋白质工程中标记数据有限及序列空间组合复杂性问题,研究人员探索半监督学习(SSL)策略,引入同源序列信息。发现 DCA 编码结合 MERGE 与 SVM regressor 性能最优,为数据驱动的蛋白质优化提供新路径。
在生命科学领域,蛋白质工程致力于通过改造蛋白质序列来优化其功能,以满足生物技术和治疗学等多领域需求。然而,蛋白质序列空间的巨大组合复杂性、上位效应(epistasis)以及实验筛选通量的限制,使得获取足够的标记数据(即已知适应性的蛋白质序列)成为瓶颈。传统的监督学习方法依赖大量标记数据,在数据稀缺时难以有效泛化,这极大地制约了数据驱动型蛋白质工程的发展。如何利用海量未标记的同源序列信息,提升模型在低标记数据场景下的预测能力,成为亟待解决的关键科学问题。
西班牙布尔戈斯大学(Universidad De Burgos)的研究团队针对这一挑战,开展了半监督学习策略在蛋白质适应性预测中的应用研究。他们的研究成果发表在《Journal of Cheminformatics》上,通过整合同源序列的潜在信息,开发并比较了多种半监督学习方法,为蛋白质工程提供了更鲁棒的预测模型,有望突破数据限制对实验优化的束缚。
关键技术方法
- 同源序列获取与多序列比对(MSA):以野生型蛋白质序列为查询,利用 HMMER 软件从 UniRef100 数据库中搜索同源序列,构建 MSA 矩阵,并通过筛选去除高 gap 比例的序列和位置。
- 直接耦合分析(DCA)模型构建:基于 MSA 矩阵,使用 plmc 软件推断 DCA 统计模型,获取局部场参数h_i和耦合矩阵J_{ij},用于计算序列的统计能量E(\sigma)及突变能量差\Delta E。
- 序列编码方法:包括 DCA 编码(利用 DCA 模型参数生成低维序列表示)、eUniRep(基于同源序列微调的神经网络编码)、UniRep 和 PAM250(基于进化保守性的氨基酸替换矩阵编码)。
- 半监督学习策略:
- 无监督预处理方法:如 MERGE 框架,结合 DCA 模型的统计能量与监督学习回归器。
- Wrapper 方法:将 Tri-Training 和 Co-Training 分类方法改编为回归任务,通过伪标签迭代扩展训练数据。
研究结果
不同策略在标记数据充足与稀缺场景下的性能对比
在使用全部标记数据训练时,基于 DCA 编码的监督学习方法(如 DCA+SVM)已表现出较高性能,但与 MERGE 的差异较小。然而,当标记数据量减少至 250、200、150、100 甚至 50 个时,半监督策略的优势显著显现。其中,DCA 编码结合 MERGE 和 SVM 回归器(DCA+MERGE [SVM])在 Spearman’s ρ[32]和加权 Spearman’s ρw[33]指标上均优于其他方法,尤其在标记数据仅 50 个时,其预测准确性显著高于单纯使用 DCA 编码的监督学习模型。
DCA 编码与 eUniRep 编码的性能差异
DCA 编码在多数情况下优于 eUniRep,特别是在使用 SVM 回归器时。这归因于 DCA 能直接捕捉序列中的共进化信号,而 eUniRep 依赖预训练模型对同源序列的泛化能力。当数据集包含显著的上位效应或共进化模式时,DCA 的优势更为突出;反之,在突变效应较为简单的数据集上,两者性能差异缩小。
半监督 Wrapper 方法的适用性
与无监督预处理方法相比,基于伪标签的 Wrapper 方法(如 Tri-Training Regressor)在标记数据充足时表现尚可,但随数据量减少,其性能下降明显。这可能是由于伪标签的准确性在低数据量时难以保证,导致模型引入噪声。此外,结合无监督预处理与 Wrapper 的策略(策略 4)并未进一步提升性能,部分情况下甚至因计算复杂度增加而略有下降。
MERGE 框架的改进与泛化
研究提出了 MERGE 的广义版本,允许使用任意监督回归器替代原有的岭回归器。实验表明,当采用 SVM 作为基回归器时,MERGE 的性能显著提升,且无需复杂的参数调优,展现了更强的鲁棒性和泛化能力。这一改进为 MERGE 在不同数据集和场景中的应用提供了更灵活的选择。
结论与讨论
本研究系统验证了半监督学习策略在蛋白质适应性预测中的有效性,尤其是通过同源序列引入进化信息的无监督预处理方法。结果表明,DCA 编码与 MERGE 框架的结合能显著提升低标记数据下的模型性能,为实验资源有限的蛋白质工程提供了切实可行的解决方案。此外,新提出的 Tri-Training Regressor 方法为半监督回归在生物信息学中的应用拓展了思路。
研究同时揭示了序列编码方法的选择需结合数据集特性:DCA 适用于共进化信号强的场景,而 eUniRep 在泛化能力上具有潜力。未来研究可进一步探索深度学习与半监督策略的结合,以及跨物种同源序列信息的整合,以提升模型对复杂蛋白质功能的预测能力。该工作不仅为蛋白质工程提供了新工具,也为半监督学习在生物数据建模中的应用开辟了更广阔的研究方向。