
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多功能治疗肽综合数据集:58,583条实验验证肽的序列-结构-功能关系解析
【字体: 大 中 小 】 时间:2025年07月15日 来源:Scientific Data 5.8
编辑推荐:
本研究为解决治疗肽研究中多功能性和结构信息不足的问题,研究人员整合了58,583条实验验证肽构建了当前最全面的治疗肽数据集(含21,130条多功能肽和54,722条结构注释),通过AlphaFold2等工具预测空间结构,为肽药物发现和"序列-结构-功能"关系研究提供关键资源。
在生物医药领域,治疗肽因其高特异性、低免疫原性等优势成为药物研发新宠。然而现有肽数据库存在两大痛点:多功能肽收录不足(最大仅9,986条)和结构信息匮乏(最优数据库仅含16,131条结构数据)。更关键的是,传统结构预测工具精度有限,而AlphaFold2等革命性技术带来的结构预测突破尚未充分应用于肽研究领域。
北京航空航天大学医工交叉创新研究院的研究团队在《Scientific Data》发表的研究,通过整合UniProt和32个专业数据库资源,构建了包含58,583条实验验证治疗肽的超大规模数据集。该数据集创新性地采用三级技术路线:从PDB获取179条实验结构,用AlphaFold2预测24,746条长肽结构,ESMFold预测29,162条短肽结构,最终实现93%的结构覆盖率。尤为重要的是,团队建立了包含47个功能类别(含15个主类32个子类)的分类体系,其中21,130条多功能肽的收录量是既往最优数据库的2.1倍。
【数据特征】
通过系统分析显示,数据集涵盖2-50个氨基酸的全长度范围,包含4,500+物种来源,其中抗菌(含抗革兰氏+/抗革兰氏-等子类)、抗癌(含抗乳腺癌/抗肺癌等8种癌症类型)和代谢调节(血糖/脂质代谢)肽占比最高。结构数据中,54,722条肽的pLDDT评分>90,证实预测可靠性。
【技术验证】
研究采用多维度质控:序列层面通过HELM标准化处理修饰肽;功能标注采用"高频优先+高影响因子优先"的冲突解决机制;结构层面交叉验证AlphaFold2与ESMFold的预测一致性。分析表明,75%的肽具有明确物种来源信息,42/47功能类别包含≥50条独特序列。
该研究的核心突破在于首次实现了治疗肽"序列-结构-功能"三位一体数据整合。数据集不仅提供常规的氨基酸序列和功能注释,更包含二级结构(DSSP计算)和三级结构(PDB格式)文件,支持直接用于机器学习建模。对于药物研发的实践意义体现在三方面:1)为抗菌肽(AMP)和抗癌肽的AI预测提供训练集;2)通过多功能标签促进肽药物重定位(repurposing);3)L型/D型氨基酸的明确标注(大写/小写区分)助力合成肽设计。
研究团队特别指出,该资源已应用于三个典型场景:抗菌肽跨物种活性预测、抗癌肽的血管生成抑制机制解析、以及GLP-1类似物的结构优化。所有数据通过FigShare开源(DOI:10.6084/m9.figshare.28691885),包含可交互分析的HELM分子描述符和特征编码脚本,支持Python/R语言直接调用。这项工作为理解治疗肽的" moonlighting"(多功能)特性提供了分子基础,将加速从肽发现到临床应用的转化研究。
生物通微信公众号
知名企业招聘