gem5模拟器中ARM架构LL/SC指令活锁问题分析与解决

2025-07-06 16:44:32作者：蔡怀权

问题背景

在多核处理器设计中，原子操作是实现线程同步的关键机制。ARM架构使用LL（Load-Linked）和SC（Store-Conditional）指令对来实现原子操作。在gem5模拟器的ARM架构实现中，当使用O3CPU（乱序执行CPU模型）配合MESI_Three_Level或MESI_Two_Level缓存一致性协议时，会出现一个严重的活锁问题。

这个问题在模拟多线程应用程序（特别是使用pthread_barrier_wait进行线程同步的场景）时尤为明显。当核心数量达到或超过8个时，模拟会陷入无限循环，无法继续执行。通过调试信息可以确认，问题的根源在于LL/SC指令对无法成功完成，形成了活锁状态。

问题重现与诊断

为了重现这个问题，研究人员设计了一个包含8个线程的测试程序，每个线程都执行1000次迭代的同步操作。测试程序使用pthread_barrier_wait作为同步原语。在gem5模拟器中运行这个程序时，模拟会在执行若干次迭代后停滞。

通过启用Exec调试标志，可以观察到处理器核心不断报告"consecutive store conditional failures"警告，这表明SC指令持续失败。进一步分析发现，这是由于缓存一致性协议在处理LL/SC操作时存在问题，导致多个核心之间形成了竞争条件，无法完成原子操作。

技术分析

在ARM架构中，LL/SC指令对的工作原理是：

LL指令加载内存值并设置监控标记
处理器监控该内存地址是否被其他核心修改
SC指令尝试存储新值，仅当监控期间没有其他修改时才成功

在gem5的实现中，这个问题主要涉及两个方面：

缓存一致性协议问题：MESI_Three_Level协议在处理功能读操作时存在缺陷，未能正确处理某些消息类型（如PUTX_COPY、INV_DATA等）的功能读请求。
LL/SC活锁：当多个核心同时尝试对同一地址执行LL/SC操作时，由于协议实现的不完善，可能导致所有核心的SC操作都失败，形成活锁状态。

解决方案

研究人员提出了针对MESI_Three_Level协议的补丁，扩展了功能读操作的处理范围。补丁修改了CoherenceMsg结构中的functionalRead方法，使其能够处理更多类型的消息：

bool functionalRead(Packet *pkt) {
  if (Class == CoherenceClass:PUTX ||
      Class == CoherenceClass:PUTX_COPY ||
      Class == CoherenceClass:INV_DATA ||
      Class == CoherenceClass:DATA ||
      Class == CoherenceClass:DATA_EXCLUSIVE) {
      return testAndRead(addr, DataBlk, pkt);
  }
  return false;
}

这个修改确保了在更多情况下能够正确执行功能读操作，从而避免了LL/SC活锁的发生。类似的修复也被应用于MESI_Two_Level协议。