针对语义数据集的联邦学习基准测试：联邦场景图生成

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition Letters》：Benchmarking federated learning for semantic datasets: Federated scene graph generation

【字体：大中小】 时间：2025年08月09日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　本研究系统评估了深度主动学习方法的性能，发现基于熵的策略在72.5%的采样步骤中优于其他方法，部分方法甚至不如随机采样。重点分析了起始预算、预算步长和预训练的影响，并扩展至半监督学习和目标检测任务，证实主动学习与半监督结合可提升6%以上性能。研究揭示了当前方法的局限性及实验设置的关键作用。

　　在当前深度学习领域中，模型的性能通常依赖于大规模的标注数据。然而，获取这些数据的过程往往伴随着高昂的成本，特别是在需要专业技能进行标注的领域，如医学影像和法医学。因此，研究者们开始探索如何在有限的标注预算下，提高模型的训练效率。这一探索催生了主动学习（Active Learning, AL）的概念，它通过选择最具信息量的样本进行标注，从而优化模型的学习过程。本文旨在对当前最先进的深度主动学习方法进行全面评估，揭示其在不同任务中的表现，并提出未来研究的方向和建议。

主动学习的核心思想在于通过选择性标注，减少不必要的数据标注工作。这一策略不仅有助于节省时间和人力成本，还能提高模型的训练效率。在许多研究中，主动学习被证明在某些情况下能够超越随机采样的效果，尤其是在图像分类和目标检测等任务中。然而，本文的实验结果表明，在一般情况下，没有任何单一模型的方法能够显著超越基于熵的主动学习策略。这一发现挑战了当前深度学习研究中普遍认为某些高级方法优于传统策略的观点。

在实验设计中，本文采用了统一的条件设置，确保不同方法之间的公平比较。实验涵盖了多个标准数据集，包括CIFAR-10、CIFAR-100、Caltech-101和Caltech-256。这些数据集的选择不仅代表了常见的分类任务，还涵盖了不同的图像类型和类别数量，以全面评估主动学习方法的有效性。实验过程中，所有数据集都使用相同的超参数设置，以确保实验的可重复性和一致性。这种统一设置在主动学习研究中尤为重要，因为不同的参数调整可能会影响实验结果的可靠性。

此外，本文还探讨了主动学习方法在不同预算设置下的表现。例如，起始预算、预算步长等因素对模型性能的影响。实验结果显示，这些因素在模型训练过程中起着至关重要的作用。起始预算的设定决定了模型在初始阶段能够获取多少标注数据，而预算步长则影响了模型在每一轮主动学习中选择样本的频率。这些参数的调整可能对模型的最终性能产生显著影响，因此在研究中需要特别关注。

本文还进一步研究了主动学习与半监督学习的结合效果。实验表明，将这两种方法结合使用可以显著提高模型的性能，尤其是在目标检测任务中。通过结合主动学习和半监督学习，模型能够更有效地利用未标注数据，从而在较少的标注数据下达到较高的准确率。这种结合策略在实际应用中具有重要的意义，因为它能够在资源有限的情况下，提高模型的训练效率。

在实验过程中，本文还对主动学习方法的某些关键部分进行了消融实验。例如，预算设置对模型性能的影响。通过消融实验，研究者能够确定哪些因素对模型的最终效果最为关键。实验结果显示，预算的合理设置对于模型的性能提升具有重要作用。因此，在未来的主动学习研究中，需要更加关注预算设置的优化，以提高模型的训练效率。

本文的研究还揭示了当前深度学习研究中的一些局限性。例如，某些方法在实验设置上存在不公平比较的问题，这可能会影响研究结果的可信度。此外，一些方法在测试时使用了测试集进行验证，这可能会影响模型的真实性能评估。因此，在未来的主动学习研究中，需要更加严谨的实验设计，以确保研究结果的可靠性。

在实验过程中，本文还探讨了主动学习方法在不同任务中的表现。例如，在目标检测任务中，主动学习方法与半监督学习的结合能够显著提高模型的性能。通过结合这两种方法，模型能够更有效地利用未标注数据，从而在较少的标注数据下达到较高的准确率。这种结合策略在实际应用中具有重要的意义，因为它能够在资源有限的情况下，提高模型的训练效率。

本文的研究还揭示了当前深度学习研究中的一些局限性。例如，某些方法在实验设置上存在不公平比较的问题，这可能会影响研究结果的可信度。此外，一些方法在测试时使用了测试集进行验证，这可能会影响模型的真实性能评估。因此，在未来的主动学习研究中，需要更加严谨的实验设计，以确保研究结果的可靠性。

综上所述，本文通过全面评估多种深度主动学习方法，揭示了其在不同任务中的表现，并提出了未来研究的方向和建议。研究结果表明，在一般情况下，基于熵的主动学习策略仍然是最优的选择。同时，本文还探讨了主动学习方法在不同预算设置下的表现，以及与半监督学习的结合效果，为未来的主动学习研究提供了有价值的参考。这些发现不仅有助于提高模型的训练效率，还能够为实际应用中的资源分配提供指导。

联系信箱：

粤ICP备09063491号

热点排行