
-
生物通官微
陪你抓住生命科技
跳动的脉搏
训练数据的构成决定了机器学习的泛化能力以及生物规律的发现能力
《Nature Machine Intelligence》:Training data composition determines machine learning generalization and biological rule discovery
【字体: 大 中 小 】 时间:2025年08月21日 来源:Nature Machine Intelligence 23.9
编辑推荐:
抗体-抗原结合预测中,负样本定义影响模型性能,高相似负样本组提升外分布泛化但降低内分布性能,负样本影响正样本关联规则,实验验证了模拟结果,强调数据集构成对模型健壮性和生物学相关性至关重要。
监督式机器学习模型依赖于包含正例和负例的训练数据集:数据集的构成直接影响模型的性能和偏差。鉴于机器学习在免疫治疗设计中的重要性,我们研究了不同的负类定义如何影响模型对抗体-抗原结合现象的泛化能力和规则发现能力。利用基于合成结构的结合数据,我们评估了使用不同负类定义进行训练的模型表现。研究结果表明,即使模型在数据集内部的性能较低,但如果负数据集包含与正数据集更相似的样本,模型在数据集之外的表现仍可以很好。此外,通过利用真实数据信息,我们发现与正数据相关的结合规则会随着所使用的负数据的不同而发生变化。在实验数据上的验证结果支持了基于模拟的观察结果。这项工作强调了数据集构成在构建鲁棒、具有泛化能力且符合生物学规律的序列驱动机器学习模型中的关键作用。
生物通微信公众号
知名企业招聘