数据驱动设计超强粘附水凝胶:从蛋白质序列挖掘到机器学习优化

【字体: 时间:2025年08月08日 来源:Nature 48.5

编辑推荐:

  这篇研究开创性地整合了数据挖掘(DM)、实验验证和机器学习(ML)技术,开发了一种高效设计水下超强粘附水凝胶(Fa >1 MPa)的全新策略。通过分析24,707种粘附蛋白的序列特征,构建了180种仿生水凝胶的初始数据集,并利用SMBO优化框架实现性能突破,为软材料(如弹性体、凝胶)的理性设计提供了可扩展的端到端解决方案。

数据驱动的超强粘附水凝胶从头设计

DM挖掘粘附蛋白序列特征

研究团队从NCBI蛋白质数据库中系统筛选了24,707种粘附蛋白,涵盖3,822种生物体。通过Clustal Omega多序列比对提取保守序列,创新性地将20种氨基酸按理化性质归类为6种功能基团:疏水性(BA)、亲核性(HEA)、酸性(CBEA)、阳离子性(ATAC)、酰胺性(AAm)和芳香性(PEA)。统计分析发现这些蛋白的序列特征呈现显著异质性——功能基团连续长度通常小于3个残基,但存在特定的相邻偏好性(如阳离子-芳香族配对)。

基于此,研究者提出"相对组成"策略:通过统计前5高频功能基团对(占总数50%),计算各基团的占比?i作为描述符。从200个优势物种中最终推导出180种独特组成方案,为后续水凝胶设计奠定基础。

理想共聚实现序列仿生

选用6种对应功能单体,在二甲亚砜(DMSO)中实现近乎理想的自由基共聚(反应比r≈1)。蒙特卡洛模拟证实,该策略能精确复现蛋白的统计序列特征,包括块长度分布(图3b)和相邻频率(图3c)。对比实验显示,在二甲基硫醚(DMS)中合成的嵌段序列水凝胶(因反应比偏离1)粘附性能显著降低(图3f),验证了统计序列控制的重要性。

初始180种DM驱动水凝胶中,16种展现>100 kPa的粘附强度(Fa),最佳配方G-max(源自大肠杆菌序列)达147 kPa,远超文献报道值。SHAP分析揭示BA、PEA和ATAC的协同作用:疏水/芳香基团排水,阳离子基团(ATAC)与带负电玻璃表面产生静电相互作用。但简单线性关联分析(Kendall's τ)显示各?i与Fa相关性较弱,凸显复杂结构-性能关系需ML破解。

ML优化突破性能极限

采用高斯过程(GP)和随机森林(RFR)作为基础模型,开发了批量SMBO工作流程。在首轮优化中,RFR-GP*策略(预训练增强)提出的配方R1-max实现Fa>1 MPa,较初始数据集提升近7倍。三轮优化共扩展数据集至341个样本,UMAP降维显示ML驱动配方显著偏离原始数据分布(图4b),证实算法具备外推能力。

关键发现是:最优配方仅含BA、PEA和ATAC三种单体(图5a),其协同机制为:(1)BA/PEA通过疏水效应排出界面水分子;(2)相邻ATAC增强表面静电相互作用;(3)适度交联(0.1 mol%)平衡弹性和变形能力。该组合使水凝胶在生理盐水(0.154 M NaCl)中储能模量(G′)提升至MPa级,并展现显著粘弹性(图5c)。

超强粘附的性能验证

在严苛测试条件下,R1-max展现卓越性能:(1)多种基底适应性:对聚碳酸酯(PC)、钛合金(Ti)等Fa均>500 kPa(图5e);(2)环境稳定性:人工海水(0.7 M NaCl)中保持高强度,淡水环境R2-max表现更优(图5g);(3)耐久性:25×25 mm2样品可承受1 kg剪切载荷超1年(图5f);(4)快速应急能力:成功封堵3米水柱压力下的管道泄漏(补充视频3)。

生物相容性测试显示,所有水凝胶在小鼠皮下植入后未引起显著炎症反应,预示生物医学应用潜力。但研究者指出当前局限:单体库多样性不足,难以模拟更复杂的蛋白功能域;聚合技术对序列精确控制仍停留在统计水平。

这项研究首次建立了从生物序列挖掘到材料性能优化的完整数据驱动框架,其核心创新在于:(1)通过功能基团抽象实现跨尺度信息转换;(2)理想共聚反应实现统计序列控制;(3)SMBO算法突破局部最优限制。该策略可扩展至其他功能软材料设计,如导电水凝胶、药物载体等,为生物医学工程、海洋科技等领域带来革新机遇。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号