自动化并非效率的体现

《Environmental Evidence》：Automation is not evidence of efficiency

【字体：大中小】 时间：2026年07月03日 来源：Environmental Evidence 7.0

编辑推荐：

　　摘要我们欢迎Hodgson等人（2026年）对基于本体论的大型语言模型在环境证据综合中的数据提取功能进行的实证评估。该研究通过量化不同属性类型的性能，并公开指出现有方法的局限性，做出了重要贡献。我们欢迎Hodgson等人（2026年）对基于本体论的大型语言模型在环境证据综合中的数

摘要

我们欢迎Hodgson等人（2026年）对基于本体论的大型语言模型在环境证据综合中的数据提取功能进行的实证评估。该研究通过量化不同属性类型的性能，并公开指出现有方法的局限性，做出了重要贡献。

然而，我们担心将这种方法描述为“大型语言模型有望在证据综合中节省部分人力”可能夸大了作者的实际研究结果。

我们欢迎Hodgson等人 [1] 对基于本体论的大型语言模型在环境证据综合中的数据提取功能进行的实证评估。该研究通过量化不同属性类型的性能，并公开指出现有方法的局限性，做出了重要贡献。

然而，我们担心将这种方法描述为“大型语言模型有望在证据综合中节省部分人力”可能夸大了作者的实际研究结果。在许多对综合过程至关重要的属性上（如响应变量、恢复措施、采样和监测方法），他们报告的精确度和召回率仅在50%到60%之间，且存在较高的假阳性和假阴性率。在这种水平下，人工劳动并未被取代，而是转移到了结果验证、修正以及提取信息重建等劳动密集型工作中。

这一区别很重要。在证据综合过程中，数据提取阶段的成本并非由提取本身的机械操作决定，而是由解释、一致性检查以及错误修正等认知工作决定。那些在需要大量解释的领域表现不佳的工具，或许仍可作为辅助提示或探索性工具使用，但尚不足以证明其能提升效率，尤其是没有直接证据表明整体工作量有所减少。更为恰当的结论应是区分部分任务的自动化与总体综合工作量的实际减少，而这需要通过对验证时间、修正负担以及整体人工投入的直接评估来实现。如果没有关于人类之间一致性评估的数据，也难以判断所观察到的人工智能与人类之间的分歧是源于模型限制还是任务本身的模糊性，这进一步增加了关于自动化效果的争议。

作者建议加大本体论扩展和提示工程方面的投入，以提升数据提取性能。虽然这一建议在技术层面上是合理的，但它引发了关于机会成本的重要问题。用于完善本体论和设计提示的时间，本可以用来开展基础研究、整合文献、改进综合方法或解决重要的生态学问题。在鼓励研究界投入精力优化人工智能工具之前，应有更明确的证据表明此类投资确实能在效率、可靠性或决策质量方面带来提升。在没有这样的证据情况下，一味呼吁进一步优化可能会将工具开发的负担转嫁给研究人员，而非认真评估当前的人工智能技术是否已足够成熟，足以支撑其大规模应用的环境和经济成本。

我们需要强调的是，这些担忧并不会降低这项研究的重要性。相反，它们凸显出在呈现研究结果时需要更加精准，避免过度夸大，尤其是在那些会影响后续应用的摘要中。将这类工具描述为还需进一步开发，而非声称其具有节省人力的优势，才能更准确地反映当前的实证情况，避免在涉及决策的证据综合工作中过早地做出关于效率的假设。鉴于准确度在证据综合中的核心地位，在宣称效率提升之前，有必要仔细考虑当前存在的差异程度。

随着人们对人工智能辅助证据综合的兴趣日益浓厚，确保实证性能与宣传主张之间的紧密对应至关重要，这样才能实现负责任、透明且可信的应用。正如RAISE指南 [2] 所指出的那样，“关于效率、节省人力或加速处理的主张应当有证据支持，而不能仅仅基于任务的自动化程度来推断。”

摘要

热点排行