通过基于置信度的流程提高样本图像数据集自动化标注的准确性
《PLOS Computational Biology》:Improving the accuracy of automated labeling of specimen images datasets via a confidence-based process
【字体:
大
中
小
】
时间:2025年11月15日
来源:PLOS Computational Biology 3.6
编辑推荐:
植物标本图像的深度学习自动标注方法及宏植物学研究应用。通过置信度阈值筛选提高分类准确率,验证了在超过60万样本上的可行性,发现湿land状态与开花时间变化的相关性,并构建了公开数据集支持生态学研究。
在过去的三十年中,自然历史标本的数字化为科学家们提供了丰富的标本图像和元数据。然而,尽管这些数据量庞大,其在科学研究中的应用仍受到限制,主要因为缺乏进一步的详细特征标注。为了改善这一状况,研究者们开始关注利用现代“深度学习”技术,特别是卷积神经网络(CNN)等模型,来自动化这一标注过程。深度学习技术能够显著减少人工标注所需的时间和成本,因此成为一种备受关注的解决方案。然而,目前大多数深度学习模型的标注准确率仍然较低,通常在80%到85%之间,难以满足科学研究的高精度需求。
为了克服这一问题,本文提出了一种新的方法,通过评估模型对预测标签的“置信度”并结合用户自定义的置信度阈值,以筛选出不确定性较高的标注结果。这种方法通过设置一个较高的置信度阈值,可以大幅提高模型的准确率。例如,一个初始准确率为86%的模型,通过拒绝大约40%的标注结果,可以达到95%以上的准确率;而通过拒绝约65%的标注结果,甚至可以实现超过99%的准确率。这种方法不仅提高了模型的准确性,还为研究者提供了灵活的选项,使他们可以根据具体研究需求,选择合适的准确率与数据覆盖范围之间的平衡。
在验证这一方法的过程中,研究团队对超过60万份标本进行了标注,特别关注其繁殖状态。这一过程不仅提升了数据的可用性,还揭示了一些尚未被充分研究的特征相关性。例如,研究发现某些植物的繁殖状态与湿地环境特征之间存在潜在的联系,这一发现为未来的生态研究提供了新的视角。此外,该研究的结果还与已知的生态趋势保持一致,表明该方法在提高标注质量的同时,也能提供可靠的科学依据。
在实际应用中,研究团队通过一个具体的案例,验证了这一方法的有效性。他们复制了一个研究,该研究原本需要人工标注15,000份标本,以分析本地和外来植物的开花模式。通过使用该方法,研究团队能够在数小时内完成标注,并且结果与原始研究的结论高度一致。这一结果不仅证明了该方法在提高标注准确率方面的潜力,还展示了其在减少人工成本和加快研究进程方面的优势。
为了进一步推广这一方法,研究团队还将其应用于一个名为INaturalist2018的公开数据集。该数据集包含超过43万张训练图像、2.4万张验证图像和14.9万张测试图像,涵盖了8,142种不同的物种。通过应用该方法,研究团队发现,即使使用一个未经特别优化的模型,也可以通过调整置信度阈值,显著提升其标注的准确率。例如,一个初始准确率为43%的模型,通过设置较高的置信度阈值,可以将准确率提升至超过90%。这一结果表明,该方法不仅适用于专门训练的模型,也适用于现有的、未经过优化的模型,为更广泛的应用提供了可能。
此外,研究团队还利用该方法对一个包含超过60万份标本的大型数据集进行了分析,重点研究了开花时间的变化。通过对这些数据进行线性回归分析,研究团队能够确定每个物种开花时间的变化趋势、变化幅度以及变化的统计显著性。结果显示,总体上,开花时间平均提前了0.248天/十年,其中一些物种的变化幅度较大,如Crepis capillaris(L.)Wallr.提前了3.78天/十年,而Callitriche palustris(L.)则推迟了4.33天/十年。这一发现不仅支持了已有的关于气候变化对植物开花时间影响的研究,还揭示了一些新的模式,例如湿地环境特征与开花时间变化之间的关系。
为了深入理解这些变化背后的机制,研究团队还对模型的嵌入空间进行了分析。他们发现,低置信度的样本通常位于不同类别之间的边界区域,这表明通过设置较高的置信度阈值,可以有效分离这些类别,从而提高分类的准确性。例如,高置信度的开花分类通常与明显的花朵特征相关,而低置信度的分类则可能涉及模糊或难以辨识的繁殖结构。通过这种分析,研究团队不仅验证了模型的有效性,还提供了更直观的分类依据,使非机器学习领域的研究者也能更好地理解和应用这一方法。
然而,这种方法也存在一些局限性。首先,置信度评分通常未经过校准,这意味着高置信度并不总是意味着高准确性。因此,校准模型置信度是一个重要的研究方向,可以提高置信度评分的可解释性和实用性。其次,使用置信度筛选可能会导致样本选择偏差,即某些物种或特征类别被过度关注,而其他类别则被忽视。这种偏差在大规模数据集中尤为明显,因此需要在模型训练过程中考虑如何平衡不同类别的样本数量,或者结合人工标注,以确保数据的全面性和代表性。
为了克服这些挑战,研究团队在数据处理过程中采取了多种措施。例如,在复制原始研究时,他们通过调整置信度阈值和样本数量,确保了模型标注结果的可靠性。同时,他们还对数据集进行了筛选,排除了那些在工业革命前和后样本数量不足的物种,以确保分析结果的有效性。这些措施不仅提高了数据的质量,还为研究者提供了更全面的视角,使他们能够更准确地解读模型的输出。
在分析过程中,研究团队还考虑了多种植物特征对开花时间变化的影响。例如,他们发现生长形式(如草本植物与木本植物)对开花时间的变化有显著影响,而湿地环境特征与开花时间变化之间的关系则相对较少被研究。此外,开花季节性和开花持续时间等特征也被纳入分析范围,以进一步探讨其对植物繁殖模式变化的影响。这些分析不仅揭示了植物繁殖模式变化的复杂性,还为未来的生态研究提供了新的方向。
总体而言,本文提出了一种实用的方法,通过调整置信度阈值,显著提高了深度学习模型在生态研究中的应用价值。这种方法不仅适用于专门训练的模型,也适用于现有的、未经过优化的模型,为研究者提供了灵活的解决方案。通过应用这一方法,研究团队成功地标注并分析了一个包含超过60万份标本的大型数据集,揭示了植物繁殖模式变化的多个方面。这一成果不仅为生态研究提供了新的数据资源,还展示了深度学习技术在提升科学研究效率和质量方面的巨大潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号