气候模型开发中的“隐形敌人”:软件缺陷(Software Bugs)的发现、修复与科学启示

【字体: 时间:2025年08月14日 来源:Earth's Future 8.2

编辑推荐:

  这篇综述深入探讨了气候模型(GCMs)开发中鲜少被系统研究的软件缺陷(Bugs)问题。研究通过分析ICON模型开发中的11个深度访谈案例,揭示了从缺陷发现(多为偶然)、调试(依赖领域专家判断)到修复(常采取"足够好"策略)的非标准化工作流程。特别指出气候模型特有的"预言问题"(oracle-problem)和"容忍问题"(tolerance-problem)使缺陷检测复杂化,而"生成性嵌入"(generative entrenchment)现象则阻碍了系统性改进。研究强调模型开发者采用"足够好"(good enough)的实用主义态度虽具合理性,但引发了关于模型在政策决策中适用性的深刻伦理思考。

  

气候模型开发中的软件缺陷管理实践

Abstract

通用环流模型(GCMs)作为理解地球气候系统和天气预报的强大工具,本质上是人类编写的大型软件程序,必然包含编码错误(即软件缺陷)。本研究通过分析ICON模型开发过程中的11个深度访谈案例,揭示了气候模型开发中处理缺陷的非标准化工作流程及其科学哲学意义。

Key Points

  • 软件缺陷处理是气候模型开发的常规任务

  • 部分工作流程缺乏标准化,缺陷发现常依赖巧合

  • 开发者追求"足够好"而非完美的模型,这与模型的表面普适性存在冲突

Plain Language Summary

气候模型既是科学工具也是复杂软件,必然包含编码错误。本研究通过开发者访谈详细描述了缺陷处理流程,指出科学测试因缺乏绝对参照标准而难以标准化。模型开发者采取"足够好"的实用主义立场,这种谦逊态度与气候模型在社会决策中的广泛应用形成张力。

1 Introduction

气候模型将物理理解转化为计算机代码,这个转化过程常被忽视。模型缺陷被定义为可能导致计算模型故障的编码错误,区别于其他被承认的模型不完美之处。气候模型代码规模庞大(ICON模型代码量达百万行级),存在"认知不透明性",使得输入输出关系难以追溯。研究选取MPI-Met开发的ICON-Sapphire千米级配置作为案例,因其分辨率变革带来了大量缺陷发现机会。

2 Methods

研究筛选了ICON开发平台2021-2023年间报告的14个典型缺陷,对11位参与者(4位领域科学家、7位科学程序员)进行1-1.5小时深度访谈。采用归纳式内容分析法,通过QualCoder软件进行双重编码,编码者间一致性达47%。研究者作为具有气候建模背景的"知情旅行者",有效获取了开发者对缺陷处理的实际认知。

3 Results and Interpretation

3.1 Bug Examples

研究详细分析了10个典型缺陷案例,包括:

  • 气溶胶辐射接口缺陷:性能测试中发现气溶胶方案异常高效

  • 能量泄漏:全模拟辐射平衡检查发现多个能量损失源

  • 垂直坐标:海洋垂直坐标压力效应项遗漏

  • 模型崩溃:硬件故障或数值不稳定性导致

3.2 Workflow

缺陷处理流程呈现显著非线性特征:

  • 缺陷识别:主要通过偶然发现(占62%案例),仅23%通过系统监测发现

  • 调试过程:采用假设驱动方法,依赖简化测试案例和版本比对

  • 修复决策:常采取短期解决方案(如能量泄漏缺陷中的耗散加热重缩放)

  • 沟通机制:主要依赖GitLab平台内部记录,外部沟通不足

3.3 Improvements and Limits

  • 测试体系:BuildBot自动化测试仅覆盖技术层面,科学验证依赖专家判断

  • 电子记录:GitLab使用尚未完全制度化,部分开发者仍回避正式报告

  • 标准化困境:科学调试过程本质上抵抗标准化

  • 稳定性问题:频繁崩溃案例显示工作流程中断现象

3.4 Trust

开发者通过以下方式建立模型信任:

  • 长期经验(平均20年建模经验)

  • 观测对比和多模式比较

  • 物理理论一致性

    采用"启发式工具"而非"真理机器"的认知框架,使缺陷发现反而成为学习机会。

3.5 Developing Climate Models as "Good Enough"

"足够好"的开发哲学体现为:

  • 更新文化:接受不完美软件的持续改进

  • 遗留代码:部分代码的不可完全理解性

  • 稳定资产:模型作为持续维护的研究基础设施

    这种实用主义引发关键问题:当模型应用于政策决策时,"足够好"的标准应由谁制定?如何平衡科学谦逊与社会责任?

4 Conclusion

气候模型缺陷处理本质上是科学实践,具有假设驱动、实验验证等特征。研究发现:

  • 缺陷工作流程部分标准化(如BuildBot测试),但核心调试过程保持灵活性

  • "足够好"哲学虽务实,但掩盖了模型在政策应用中的不确定性

  • 缺陷透明度不足加剧了"不确定性低谷"现象

    建议建立缺陷通报规范,平衡科学实用主义与社会责任需求,特别是在高分辨率模型产生"类卫星图像"的视觉真实感背景下。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号