采用故障注入与质子辐照的 AMD MicroBlaze?V 三模冗余(TMR)架构可靠性评估

《Microprocessors and Microsystems》:Reliability assessment of AMD MicroBlaze-V TMR architecture using fault injection and proton irradiation

【字体: 时间:2026年06月14日 来源:Microprocessors and Microsystems 2.6

编辑推荐:

  本研究分析了 AMD 新近推出的 RISC?V 处理器 MicroBlaze?V 的鲁棒性。研究人员考察了在基于 SRAM 的 FPGA 上实现的 MicroBlaze?V 架构之三模冗余(Triple Modular Redundancy,TMR)容错版本。

  
本研究分析了 AMD 新近推出的 RISC?V 处理器 MicroBlaze?V 的鲁棒性。研究人员考察了在基于 SRAM 的 FPGA 上实现的 MicroBlaze?V 架构之三模冗余(Triple Modular Redundancy,TMR)容错版本。该架构通过故障注入与采用 15 MeV 和 230 MeV 质子束的辐照实验进行了评估。实验结果表明,AMD 的 TMR MicroBlaze?V 架构提供了快速且灵活的设计流程,并对配置存储器中的故障具有良好的误差缓解能力。所得结果显示,故障注入与质子辐照实验之间具有良好相关性,可用于错误率估算与精确的误差缓解策略制定。总体而言,AMD TMR MicroBlaze?V 的错误检测率约为 99.84%。约 1% 的失效在事先没有预警,但实验数据表明这些错误与已进行三重化的存储器相关。在所评估条件下,系统发生失效的平均时间是发生一次非致命错误平均时间的两倍。对于 15 MeV 和 230 MeV 质子实验,相较于无预警失效,带有先前预警的失效之截面(cross-section)分别优 47 倍和 65 倍。
该文发表于《Microprocessors and Microsystems》,围绕 AMD 面向 SRAM 型 FPGA 的 RISC?V 软核 MicroBlaze?V 三模冗余(TMR)容错架构开展了系统性可靠性评估,核心目标是在空间电子与高可靠应用背景下,分析配置存储器故障对系统运行的影响,并验证故障注入能否有效表征质子辐照下的失效行为。研究背景在于“新航天时代”以及汽车等高安全需求领域正在推动商业现货器件(COTS)与开放指令集架构 RISC?V 的加速应用。相较定制化专用硬件,COTS 与 RISC?V 结合能够降低成本、缩短开发周期并增强系统可配置性,但基于 SRAM 的 FPGA 易受辐射诱发翻转影响,尤其配置存储器中的单粒子效应会改变电路实现逻辑,从而引发关键错误。因此,如何在保持设计灵活性的同时提升软核处理器系统在辐射环境中的鲁棒性,成为开展本研究的直接动因。

研究人员选择 AMD 提供的 MicroBlaze?V 容错版本进行评估。该版本结合 TMR Manager IP 构成 Fail?Safe Subsystem(失效安全子系统),由三个相互独立的 MicroBlaze?V 实例组成,每个实例均包含处理器核心、本地 BRAM、TMR Manager、轨迹比较器和多数表决器。处理器采用 5 级流水线,支持 RV32IM 指令集架构(ISA),本地存储器使用 BRAM 实现,并采用单错纠正双错检测(SECDED)编码作为存储保护机制。该设计的关键特征并不仅是块级三模冗余,而是在此基础上利用程序执行轨迹(program trace)监测各核一致性,并结合比较器与表决器输出实现错误检测、故障实例定位以及系统状态转换。系统存在容错(Fault Tolerant,FT)、锁步(Lockstep,LS)与致命(Fatal,FA)三种运行模式:正常时处于 FT 模式;当某一实例可识别失效时转入 LS 模式;若再发生不可恢复错误或不可纠正存储错误,则进入 FA 模式并停止运行。

从技术方法看,研究主要采用三类手段。其一,在 CMOD?A7 开发板的 Artix?7 35T FPGA(XC7A35T?1CPG236C)上实现 MicroBlaze?V TMR 架构,并运行经修改后可存入 BRAM 的 CoreMark 基准程序;其二,利用 AMD 的软错误缓解(Soft?Error Mitigation,SEM)IP 对配置存储器实施故障注入,注入对象限定为设计的 essential bits(实现电路功能所必需的配置位),并通过统计采样方法完成 40,175 次注入;其三,在西班牙塞维利亚 Centro Nacional de Aceleradores(CNA)和瑞士 Paul Scherrer Institute(PSI)分别开展 15 MeV 与 230 MeV 质子辐照实验,通过 UART 与 Raspberry Pi 采集状态和错误数据。研究未使用配置存储器擦洗(scrubbing),目的是评估擦洗周期之间系统在故障累积条件下的真实可靠性。

在结果部分,论文首先通过“Experimental design”说明了实验平台与资源开销。MicroBlaze?V TMR 主体占用资源最多,说明容错主体主要由三重化处理器实例构成;与单个不含本地存储器的核心相比,TMR 架构在 LUT 与寄存器上存在约 4 倍以上开销,而本地存储器三重化显著增加了 BRAM 消耗。尽管如此,作者仍指出 MicroBlaze?V 作为面向 AMD SRAM?FPGA 优化的软核,在资源友好性方面表现突出。

在“Error classification”中,研究建立了四类错误:Lockstep、Fatal、DBE(double bit error)与 SDC(silent data corruption,静默数据损坏)。其中 Fatal、DBE 与 SDC 都被定义为系统失效;Lockstep 则作为预警状态,表示系统已失去 TMR 的纠错冗余裕量但仍能维持运行。这一分类直接构成后续可靠性分析的基础。

在“Fault injection campaign”中,研究人员报告了 40,175 次 essential bits 注入的统计结果,共观察到 2,744 次运行终止事件,其中 5,463 个被识别错误对应 13.6% 错误比例。结果显示,约 99% 的系统失效在发生前均先出现 Lockstep 预警,说明程序轨迹监测与 TMR Manager 的联合检测机制具有很高有效性。就失效类型构成而言,在具有先前 Lockstep 预警的失效中,Fatal 约占 71.06%,DBE 占 27.73%,SDC 占 0.29%。无先前 Lockstep 预警的失效仅占约 0.91%,且全部为 DBE。该结果表明,绝大多数失效并非突发不可察觉,而是存在可用于恢复处理的时间窗口;另一方面,极少数未预警失效主要与存储系统相关,提示即使 BRAM 已采用 SECDED 并被三重化,相关可配置路由和逻辑仍可能成为脆弱点。论文还指出,该架构的 SDC 率约为 2 × 10-4,虽然极低,但由于 SDC 不会立即暴露系统异常,因此依然具有重要风险意义。

在“15 MeV proton irradiation campaign”中,研究在平均通量 6.43 × 107 p/cm2/s、总注量 2.72 × 1011 p/cm2 条件下进行了实验。结果与故障注入高度一致:约 99.06% 的失效有先前 Lockstep 预警,其中 Fatal 占 73.71%,DBE 占 25.35%,未观测到 SDC;仅 0.94% 的失效无先前 Lockstep 预警,且均为 DBE。研究进一步给出截面分析:设计总失效截面为 8.97 × 10-10 cm2,未预警失效截面为 2.66 × 10-11 cm2,后者比总失效截面低 64.5 倍。结合 SPENVIS 轨道环境估算,作者推导出在 1000 km、11 年任务轨道条件下,带预警失效的平均失效时间(MTTF)约为 31 至 41 天,而无预警失效的 MTTF 约为 2 至 85 年。这说明若系统能利用 Lockstep 预警触发恢复,则多数失效风险可以被前置管理。

在“230 MeV proton irradiation campaign”中,平均通量为 9.97 × 107 p/cm2/s,总注量为 4.28 × 1011 p/cm2。结果同样显示约 98.2% 的失效有先前 Lockstep 预警,其中 Fatal 占 67.57%,DBE 占 29.73%,SDC 占 0.9%;无预警失效占 1.8%,仍全部为 DBE。与 15 MeV 实验不同,此次观测到了少量 SDC,这一点与故障注入实验中对低概率事件的揭示相互印证。该能量条件下总失效截面为 5.92 × 10-10 cm2,无预警失效截面为 2.39 × 10-11 cm2,约低 47 倍。结合轨道环境估算,带预警失效的 MTTF 约为 3 至 9 年,而无预警失效在任务周期内几乎可忽略。作者据此指出,若配置存储器采用擦洗机制,则在如此长的时间窗口内,累积故障理论上可在导致系统失效前被清除。

在“Discussion”中,论文最重要的结论之一是故障注入与两组质子辐照实验在事件比例、失效构成与行为分布上表现出显著一致性。三类实验均显示:约 99% 的失效发生前存在 Lockstep 预警;在有预警失效中,Fatal 约占 70%,DBE 约占 30%,SDC 约占 1%;无预警失效仅见于 DBE。为进一步分析这种一致性,研究人员对失效随注入次数或辐照时间的分布进行了建模,发现其符合对数正态(lognormal)样行为,并通过最大似然估计(MLE)求得参数。该结果说明,在不使用故障累积缓解技术时,配置存储器中故障的累积会以乘性方式推动系统进入失效状态。更重要的是,这证明故障注入不仅能给出定性趋势,也可用于刻画质子辐照下的概率分布,从而为难以频繁开展的辐照试验提供替代性建模手段。

研究还据此讨论了系统寿命与恢复策略。根据注入统计,平均需要 6.57 次注入才会出现一次 Lockstep 预警;进入 Lockstep 后,再平均经历约 8 次注入才会达到 Fatal 或 DBE 等系统失效。作者据此指出,在所评估条件下,系统寿命约为首次非致命错误出现时间的两倍,这意味着从预警出现到真正失效之间存在一个可利用的恢复窗口。对需要连续执行关键任务的应用而言,这一统计规律可直接用于制定恢复时机、擦洗频率与功耗—可靠性平衡策略。论文进一步指出,传统按经验将擦洗频率设定为错误率的 10 倍或 100 倍虽可提高安全裕量,但可能带来不必要的功耗增加;若已知失效分布,则可按目标失效概率反推更合理的擦洗周期,从而实现更精细的可靠性设计。

研究结论部分可概括为:研究人员通过故障注入以及 15 MeV、230 MeV 质子辐照实验,对 MicroBlaze?V 的 TMR 架构在配置存储器故障下的可靠性进行了评估。实验结果表明,在 CoreMark 基准下,故障注入与辐照实验之间存在很强相关性;同时,研究还计算了错误的理论分布,以支持面向实际应用的更优误差缓解策略。在所评估条件下,系统平均寿命约为首次非致命错误出现时间的两倍。该 TMR 架构提供了预警机制,可用于估计失效率并实施错误恢复技术。此外,并非所有失效都会先经历 Lockstep 模式,约 1% 的失效不会被提前预警;对于 15 MeV 与 230 MeV 质子实验,这类错误的截面分别约为总错误截面的 1/65 与 1/47。总体而言,AMD 提出的这一 RISC?V 容错方案在应对配置存储器故障方面表现出较高可靠性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号