《Bioinformatics Advances》:Bridging Worlds: Connecting Glycan Representations with Glycoinformatics via Universal Input and a Canonicalized Nomenclature
编辑推荐:
面对糖链命名体系碎片化导致数据难互通、AI训练受困的痛点,作者团队开发Universal Input框架,一键自动识别并规范10余种主流格式至IUPAC-condensed,98-100%覆盖15万条序列,平均0.2 ms/条,为糖组学数据库整合与智能模型奠定“ lingua franca”,即刻提升跨平台协作效率。
糖链(glycan)是细胞表面的“糖密码”,调控免疫应答、病毒入侵、癌症转移等关键生命事件。然而,这条“密码”长期没有统一的书写方式:化学家偏爱可读性强的IUPAC-condensed,计算专家依赖机器友好的WURCS或GlycoCT,质谱工作者输出模糊的组成式,不同实验室甚至各自发展“方言”。命名碎片化导致数据库彼此孤立、AI训练集难以汇聚、实验人员需掌握多种“外语”,严重阻碍糖科学的大数据时代进程。为破解这一困局,瑞典哥德堡大学Wallenberg分子与转化医学中心Daniel Bojar团队提出“通用输入(Universal Input)”策略,试图让任何糖链命名都能被自动翻译为统一的规范语言,同时保留人类可读与机器可算的双重优势。相关成果发表于《Bioinformatics Advances》。
研究首先系统梳理了10余种主流命名体系,包括WURCS、GlycoCT、IUPAC-condensed/extended、GLYCAM、CSDB-linear、LinearCode?、GlycoWorkbench、GlySeeker、Oxford及KCF,归纳其语法“钩子”,为每种格式编写轻量级解析器。所有解析器仅负责“粗翻”成近似IUPAC-condensed,随后汇入一条“公共主干”进行清洗:统一单糖命名、纠正拼写、标准化连接符号、消除括号/方括号混用、标记化学不可能位点并替换为通配符“?”。对于支链顺序这一IUPAC-condensed最大歧义来源,作者基于NetworkX构建有向图,采用后序遍历计算子树权重,再按前序遍历重排,以“最长链优先→连接位点编号小者优先→字母序”三级规则生成唯一的规范字符串。整个流程集成于glycowork Python包(≥v1.7.0)及网页端,用户只需输入任意字符串,系统在<1 ms内返回规范IUPAC-condensed,并可一键转为SMILES以对接RDKit等化学信息学工具。
关键技术方法:
正则表达式与字典驱动的多命名钩子识别
轻量级解析器+公共主干清洗管道
NetworkX图模型递归重排支链算法
基于后序/前序遍历的规范树排序策略
与GlyLES语法转换器耦联实现IUPAC→SMILES批量输出
研究结果:
3.1 规范IUPAC-condensed兼顾可读与可算
作者证明,经算法统一后的IUPAC-condensed在保持人工可编辑性的同时,可被正则系统高效解析,为后续AI模型提供稳定特征。
3.2 Universal Input自动识别并转换全部主流命名
在>15万条真实序列测试中,框架对WURCS、GlycoCT等10种格式的覆盖率达98-100%,平均处理时间0.2 ms/糖;与现有GlycanFormatConverter和glypy相比速度更快、功能更广。
3.3 开放接口赋能糖生物学新场景
通过decorator模式,任何Python函数仅需一行代码即可“外挂”Universal Input,实现跨命名批量分析。网页端与glycoworkGUI提供零代码体验,支持即时SNFG绘图及SMILES导出,使糖化学家可直接计算TPSA等物化属性。
结论与讨论:
Universal Input首次在糖科学领域实现了“写法自由、语义统一”的命名互联互通。其模块化架构让新增命名仅需补充“钩子”与简易解析器,社区可持续迭代;规范IUPAC-condensed作为“中转语言”既兼容现有数据库,又方便AI模型提取特征。研究不仅缓解了糖链数据整合的长期痛点,也为高通量质谱解析、交叉数据库meta分析及深度学习模型训练提供了即时可用的基础设施。随着更多罕见单糖与修饰被社区补充,该框架有望成为糖组学领域的“通用糖语”,加速从糖链结构到功能、从基础机制到临床标志物的全链条研究。