
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于食品成分数据库与机器学习模型的食品基因毒性物质筛查:数据驱动方法与应用研究
【字体: 大 中 小 】 时间:2025年07月26日 来源:Computational Toxicology 3.1
编辑推荐:
本研究针对食品中复杂成分的基因毒性风险筛查难题,创新性地结合食品成分数据库(FooDB)与机器学习QSAR模型,开发了预测Ames试验、CAvit和MNvit三项体外基因毒性实验结果的算法体系。通过筛查70,477种食品化合物,发现6.6%物质被预测为潜在基因毒性物质,为食品风险优先评估提供了数据驱动的新范式。
食品作为人类日常必需品的复杂混合物,其安全性始终是公众健康的焦点问题。在数以万计的食品成分中,既包含天然存在的物质,也有人工添加的食品添加剂,更不乏可能存在的污染物。这些物质中潜藏的基因毒性风险,因其可能引发DNA损伤甚至致癌的严重后果,成为食品安全评估的重中之重。然而当前面临三大挑战:传统实验检测方法耗时耗力;食品成分数据库覆盖不全;缺乏系统性的风险评估框架。
研究人员创新性地将食品大数据与人工智能技术相结合,构建了一套完整的基因毒性筛查体系。研究首先整合了来自ECHA REACH、ECVAM、EFSA等12个权威数据库的基因毒性实验数据,涵盖Ames试验(细菌回复突变试验)、体外染色体畸变试验(CAvit)和体外微核试验(MNvit)三大标准测试体系。通过结构标准化和活性数据整合,最终建立了包含9,591个化合物的Ames数据集、2,260个化合物的CAvit数据集和762个化合物的MNvit数据集。
关键技术方法包括:(1)采用KNIME平台进行化学结构标准化处理;(2)基于CDK描述符和ToxPrint化学模式构建混合特征矩阵;(3)通过随机森林(RF)、支持向量机(SVM)等7种算法训练QSAR模型;(4)应用主成分分析(PCA)和孤立森林(iForest)评估模型适用域;(5)对FooDB中70,477种食品化合物进行系统筛查。
研究结果部分显示:
3.1 基因毒性预测模型的开发
通过交叉验证比较,随机森林算法在Ames试验预测中表现最优(AUC=0.92),而支持向量机对CAvit(AUC=0.79)和MNvit(AUC=0.81)的预测效果最佳。模型校准曲线显示预测概率与实测结果高度吻合。
3.2 FooDB化合物特征分析
食品成分数据库中以脂类和类脂分子占比最高(82.1%),分子量分布呈现双峰特征。值得注意的是,仅5.3%化合物具有定量检测数据,24.9%为预测存在物质,凸显数据缺口。
3.3 计算机预测结果
筛查发现4,683种(6.6%)FooDB化合物被至少一个模型预测为阳性,其中苯丙素类(1,388种)和有机杂环化合物(983种)占比最高。但高达77-82%的化合物因超出模型适用域或预测不确定而无法判定。
3.4 风险评估策略
研究创新性提出分级评估框架:计算机预测→暴露评估(TTC标准)→体外实验→体内验证。特别指出仅491种预测阳性物质已有实验数据支持,显示知识空白巨大。
这项发表于《Computational Toxicology》的研究具有多重意义:首次系统评估了食品成分的基因毒性风险谱;建立了可扩展的机器学习预测体系;提出了从计算机筛查到风险评估的完整路径。尽管当前模型对高分子量(>750 Da)和高亲脂性(MLogP>5)化合物预测能力有限,但为食品安全的主动防控提供了新思路。随着食品成分数据库的完善和算法优化,这种数据驱动的方法有望成为食品安全监管的重要工具,助力实现基因毒性物质"合理可行最低暴露"(ALARA)的管控目标。研究同时呼吁加强食品成分的定量检测数据收集,并扩大体外基因毒性实验对食品特征化学空间的覆盖。
生物通微信公众号
知名企业招聘