基于UMAP和K-means算法的白酒低阈值化合物预测与风味结构关联模型构建

【字体: 时间:2025年06月11日 来源:Food Chemistry: X 6.5

编辑推荐:

  本研究针对白酒风味分析中低浓度、低阈值化合物难以检测的难题,创新性地构建了包含646种化合物和70种风味描述符的"风味-化合物"数据库。研究人员采用1024位分子指纹编码,结合均匀流形逼近与投影(UMAP)降维和K-means聚类技术,建立了风味与分子结构的关联模型。该研究成功预测了白酒中仅能被嗅觉感知但缺乏色谱信号的"烘焙香"物质为2,5-二甲基吡嗪或2,6-二甲基吡嗪,为白酒风味科学研究提供了新方法学范式。

  

在传统白酒酿造工艺中,存在着一个长期困扰研究人员的"嗅觉之谜":某些风味物质在气相色谱-质谱联用(GC-MS)分析中几乎检测不到信号,却能通过感官评价被明显感知。这种现象常见于具有极低嗅觉阈值但高风味稀释因子的化合物,它们对白酒整体风味轮廓的形成至关重要。北京工商大学的研究团队在《Food Chemistry: X》发表的研究,通过多学科交叉方法破解了这一技术瓶颈。

研究团队首先系统整合了来自Flavornet、Human Odor Space等公开数据库的646种风味化合物信息,结合中国白酒中OAV>1的149种关键风味物质,构建了标准化"风味-化合物"数据库。采用KNIME软件计算1024位扩展连接性指纹(ECFP4),通过UMAP算法实现高维数据降维可视化,结合K-means聚类分析揭示风味-结构关联规律,最终建立预测模型并应用于实际样品分析。

在"数据收集与数据库构建"部分,研究创新性地将网络数据库信息与白酒实际风味特征相结合,通过人工筛选统一了70个高频风味描述符。特别值得注意的是,3-甲基吲哚等物质被证实与白酒"泥臭味"相关,这与Dong等先前在浓香型白酒中的发现形成印证。"降维与聚类可视化"章节显示,UMAP算法在保留局部和全局数据结构方面显著优于PCA、MDS和t-SNE等方法,其产生的聚类间空白区域更大,分类性能指标显示UMAP能对49种风味实现50%以上化合物正确归类。

"风味-结构关联分析"揭示了关键规律:酯基与68.52%的"水果"香、88.89%的"香蕉"香显著相关;含氮杂环化合物贡献了83.78%的"烘焙"香和84.62%的"坚果"香;醛基则与37.35%的"青草"香密切关联。这些发现与Sun等关于小曲白酒中乙醛(青草香)和3-甲基丁醛(青草/麦芽香)的研究结论相互印证。

在实际应用环节,研究人员针对某清香型白酒在保留指数1324-1334处的强烈"烘焙香"进行溯源。通过模型预测结合保留指数比对,将目标锁定为2,5-二甲基吡嗪和2,6-二甲基吡嗪。尽管这两种物质在常规检测中信号微弱,但研究从制曲工艺角度解释了其存在合理性——汾酒大曲在高温阶段(60°C)可能通过Maillard反应生成吡嗪类物质,这与Van-Diep等关于汾酒大曲挥发性成分的研究发现一致。

该研究的创新价值在于:首次将UMAP算法系统应用于白酒风味研究,建立的"风味-结构"预测模型突破了传统依赖经验推测的局限。特别是对2,5/2,6-二甲基吡嗪的准确预测,证实了低阈值吡嗪化合物在清香型白酒风味构成中的潜在重要性。未来研究可结合重组缺失实验进一步验证这些化合物的风味贡献度,并探索更先进的机器学习算法处理更大规模数据集。这项研究为食品风味组学提供了方法论参考,对提升白酒品质控制技术具有重要实践意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号