Hubris项目中I2C通信FIFO读取问题的分析与解决

2025-06-26 18:45:58作者：齐添朝

在Hubris项目的网络通信模块中，开发人员发现了一个与QSFP28模块通信相关的异常问题。该问题表现为在读取模块厂商信息时，某些端口返回的数据出现异常，包含大量零值或错误信息。经过深入调查，发现这是由于I2C通信协议实现中的FIFO读取时序问题导致的。

问题现象

在dogfood机架和niles系统上，使用xcvradm工具查询QSFP28模块的厂商信息时，某些端口返回了明显错误的数据。这些错误数据具有以下特征：

特别值得注意的是，当移除问题端口的模块后，异常会转移到下一个QSFP28模块的读取结果上。这一现象暗示问题与通信协议的处理顺序有关，而非硬件故障。

通过代码审查和问题追踪，发现该问题源于Hubris项目PR#1768引入的变更。这个PR对SP(Service Processor)与FPGA之间的I2C通信接口进行了重大修改：

具体问题出现在transceivers.rs文件的get_i2c_status_and_read_buffer函数中。原始实现假设I2C数据缓冲区是内存映射的，可以重复读取。但在FIFO模式下，每次读取都会消耗FIFO中的数据，导致在I2C事务完成前就意外清空了FIFO缓冲区。

在I2C通信协议中，正确的读取流程应该是：

然而，问题代码的执行流程却是：

这种实现方式在内存映射模式下是可行的，因为数据可以重复读取。但在FIFO模式下，步骤2会提前消耗FIFO中的数据，导致实际需要的数据丢失。

针对这一问题，提出了以下改进方案：

这种改进不仅解决了当前的问题，还提高了代码的封装性和可维护性。上层应用现在可以更简单地使用I2C接口，而不必担心底层是使用内存映射还是FIFO实现。

这一问题的出现和解决过程提供了几个重要的经验：

通过这次问题的解决，Hubris项目的I2C通信实现变得更加健壮，为后续的网络功能开发奠定了更可靠的基础。

登录后查看全文