Hubris项目中的SP固件更新异常问题分析

2025-06-26 10:18:31作者：申梦珏Efrain

事件背景

在Hubris项目的一个生产环境固件更新过程中，技术人员发现了一个异常情况：当通过Wicket工具更新rack3服务器时，系统在更新phase1闪存阶段意外回退到了A0状态。这一异常导致闪存内容不匹配，使主机陷入重启循环。

问题现象

具体表现为：

Wicket工具成功将服务器切换至A2状态
系统完成了"准备更新"阶段（此时闪存已被擦除）
在写入新phase1数据过程中，服务器突然回退到A0状态
由于mux切换回主机，导致更新写入失败
系统最终报告HfError::NotMuxedToSp错误（错误代码6）

技术分析

通过分析SP固件的dump数据，我们发现几个关键点：

系统运行时间：SP已持续运行21.8小时，排除了意外断电或SP重启的可能性
重启循环：主机检测到闪存问题后，以约84秒为间隔持续请求重启
状态转换机制：正常情况下，gimlet-seq仅在完成A2状态板级启动后才会自主切换到A0状态（实验室机器除外）

深入分析固件代码后，发现可能导致状态转换的路径：

控制平面代理(control-plane-agent)：响应set_power_state操作
主机-SP通信(host-sp-comms)：响应主机请求
热管理模块(thermal)：仅用于紧急断电

特别值得注意的是，主机通过IPCC协议发送了明确的启动失败原因（IPCC_BOOTFAIL_NOPHASE2），表明检测到了phase2闪存缺失的问题，但SP固件当前未充分利用这一信息。

问题根源

综合各种证据，最可能的场景是：在Wicket更新主机闪存过程中，控制平面收到了将主机电源状态切换至A0的请求。当前SP固件缺乏在更新状态和电源状态转换之间的互锁机制，导致系统在闪存更新过程中被意外切换状态。

改进建议

基于此次事件分析，建议对Hubris项目进行以下改进：

完善错误处理机制：
- SP应识别主机发送的特定启动失败原因
- 在检测到致命错误时应停止重启循环
- 建立向控制平面报告警报的机制
日志系统优化：
- 为重要事件添加计数器机制
- 将日志分为错误/警告和调试/跟踪不同级别
- 减少高频日志对关键信息的覆盖
状态管理增强：
- 在电源状态转换和更新状态间建立互锁
- 防止在闪存更新过程中切换mux状态
协议扩展：
- 增加"致命重启"请求类型
- 完善主机-SP间的错误通信协议

经验总结

此次事件凸显了嵌入式系统中状态管理的重要性。在复杂的多状态系统中，必须仔细考虑各种状态转换的边界条件和互锁机制。同时，日志系统的设计需要平衡详细程度和关键信息的保存能力。

对于类似的固件更新场景，建议：

确保更新过程的原子性
建立完善的回滚机制
加强关键操作的状态保护
完善错误报告和处理流程

这些改进将有助于提高系统的可靠性和可维护性，避免类似问题的再次发生。

hubris

A lightweight, memory-protected, message-passing kernel for deeply embedded systems.

项目地址：https://gitcode.com/gh_mirrors/hu/hubris

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch