通用“糖”语：打通糖链命名孤岛，驱动糖生物信息学数据大一统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Bioinformatics Advances》：Bridging Worlds: Connecting Glycan Representations with Glycoinformatics via Universal Input and a Canonicalized Nomenclature

【字体：大中小】 时间：2025年12月02日 来源：Bioinformatics Advances 2.8

编辑推荐：

　　面对糖链命名体系碎片化导致数据难互通、AI训练受困的痛点，作者团队开发Universal Input框架，一键自动识别并规范10余种主流格式至IUPAC-condensed，98-100%覆盖15万条序列，平均0.2 ms/条，为糖组学数据库整合与智能模型奠定“ lingua franca”，即刻提升跨平台协作效率。

糖链（glycan）是细胞表面的“糖密码”，调控免疫应答、病毒入侵、癌症转移等关键生命事件。然而，这条“密码”长期没有统一的书写方式：化学家偏爱可读性强的IUPAC-condensed，计算专家依赖机器友好的WURCS或GlycoCT，质谱工作者输出模糊的组成式，不同实验室甚至各自发展“方言”。命名碎片化导致数据库彼此孤立、AI训练集难以汇聚、实验人员需掌握多种“外语”，严重阻碍糖科学的大数据时代进程。为破解这一困局，瑞典哥德堡大学Wallenberg分子与转化医学中心Daniel Bojar团队提出“通用输入（Universal Input）”策略，试图让任何糖链命名都能被自动翻译为统一的规范语言，同时保留人类可读与机器可算的双重优势。相关成果发表于《Bioinformatics Advances》。

研究首先系统梳理了10余种主流命名体系，包括WURCS、GlycoCT、IUPAC-condensed/extended、GLYCAM、CSDB-linear、LinearCode?、GlycoWorkbench、GlySeeker、Oxford及KCF，归纳其语法“钩子”，为每种格式编写轻量级解析器。所有解析器仅负责“粗翻”成近似IUPAC-condensed，随后汇入一条“公共主干”进行清洗：统一单糖命名、纠正拼写、标准化连接符号、消除括号/方括号混用、标记化学不可能位点并替换为通配符“?”。对于支链顺序这一IUPAC-condensed最大歧义来源，作者基于NetworkX构建有向图，采用后序遍历计算子树权重，再按前序遍历重排，以“最长链优先→连接位点编号小者优先→字母序”三级规则生成唯一的规范字符串。整个流程集成于glycowork Python包（≥v1.7.0）及网页端，用户只需输入任意字符串，系统在<1 ms内返回规范IUPAC-condensed，并可一键转为SMILES以对接RDKit等化学信息学工具。

关键技术方法：

正则表达式与字典驱动的多命名钩子识别
轻量级解析器+公共主干清洗管道
NetworkX图模型递归重排支链算法
基于后序/前序遍历的规范树排序策略
与GlyLES语法转换器耦联实现IUPAC→SMILES批量输出

研究结果：
3.1 规范IUPAC-condensed兼顾可读与可算
作者证明，经算法统一后的IUPAC-condensed在保持人工可编辑性的同时，可被正则系统高效解析，为后续AI模型提供稳定特征。

3.2 Universal Input自动识别并转换全部主流命名
在>15万条真实序列测试中，框架对WURCS、GlycoCT等10种格式的覆盖率达98-100%，平均处理时间0.2 ms/糖；与现有GlycanFormatConverter和glypy相比速度更快、功能更广。

3.3 开放接口赋能糖生物学新场景
通过decorator模式，任何Python函数仅需一行代码即可“外挂”Universal Input，实现跨命名批量分析。网页端与glycoworkGUI提供零代码体验，支持即时SNFG绘图及SMILES导出，使糖化学家可直接计算TPSA等物化属性。

结论与讨论：
Universal Input首次在糖科学领域实现了“写法自由、语义统一”的命名互联互通。其模块化架构让新增命名仅需补充“钩子”与简易解析器，社区可持续迭代；规范IUPAC-condensed作为“中转语言”既兼容现有数据库，又方便AI模型提取特征。研究不仅缓解了糖链数据整合的长期痛点，也为高通量质谱解析、交叉数据库meta分析及深度学习模型训练提供了即时可用的基础设施。随着更多罕见单糖与修饰被社区补充，该框架有望成为糖组学领域的“通用糖语”，加速从糖链结构到功能、从基础机制到临床标志物的全链条研究。

联系信箱：

粤ICP备09063491号

热点排行