
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向深度学习的可学习与可解释数据Shapley估值模型研究
【字体: 大 中 小 】 时间:2025年07月03日 来源:Knowledge-Based Systems 7.2
编辑推荐:
针对传统数据Shapley值计算复杂度高、知识不可复用及结果不可解释的难题,研究人员提出基于神经回归树(DNRT)的可学习估值框架,实现高效、可迁移的样本价值量化,并通过特征离散化生成解释性规则。该成果发表于《Knowledge-Based Systems》,为深度学习数据估值提供了新范式。
在数据驱动的深度学习时代,如何量化单个样本对模型训练的贡献价值,一直是学术界和工业界的核心挑战。传统基于博弈论的Shapley值虽具理论优势,但其计算需遍历大量数据子集,存在NP-hard复杂度问题,且无法解释"为什么某个样本价值高/低"。更棘手的是,现有方法如AME(Average Marginal Effect)缺乏知识迁移能力,每项任务需从头计算,极大限制了实际应用。
针对上述痛点,中国的研究团队创新性地提出"可学习与可解释的数据Shapley估值框架"。该研究首次将神经回归树(DNRT)引入估值领域,通过特征离散化技术构建兼具预测精度和解释性的估值模型。DNRT不仅能直接映射样本特征到Shapley值,还通过树结构生成可解释规则,例如揭示"某类图像边缘特征与高估值显著相关"。实验表明,该方法在CIFAR等基准数据集上较AME-LASSO提升20%效率,且跨任务迁移时保持85%以上的准确率。
关键技术包括:1)设计离散化神经回归树(DNRT)作为核心架构,优化特征分割与权重学习;2)构建包含样本梯度、损失等12类深度特征的训练集;3)采用两阶段训练策略,先通过AME生成伪标签再微调DNRT。
研究结果部分:
数据估值:通过对比实验验证DNRT在Shapley值估计中误差率低于传统方法1.8个百分比。
可解释性分析:DNRT生成的决策路径显示,高价值样本普遍具有"低训练损失但高梯度方差"特征。
迁移学习:在医学影像迁移任务中,预训练DNRT仅需10%新数据微调即可达到原生模型95%的估值准确度。
结论指出,该研究开创了数据Shapley值的模型化学习路径,其意义在于:1)首次实现"训练一次,多次复用"的估值范式;2)通过解释规则辅助数据清洗,实验证明可提升模型训练效率30%;3)为构建跨领域大型估值模型奠定基础。论文通讯作者Ou Wu强调,该方法特别适用于医疗影像等数据异构性强的领域,未来可扩展至联邦学习场景。
生物通微信公众号
知名企业招聘