Box64项目中YMM寄存器状态管理的优化分析

2025-06-13 14:22:27作者：史锋燃Gardner

在x86到ARM指令的动态二进制翻译过程中，Box64项目需要精确处理SIMD寄存器的状态管理。近期发现的一个关键问题揭示了YMM寄存器（256位）在循环跳转时的状态同步存在缺陷，这对浮点运算的正确性产生了潜在影响。

问题背景

在x86架构中，YMM寄存器是AVX指令集引入的256位向量寄存器，分为高128位和低128位。Box64在ARM平台上模拟这些寄存器时，采用分层缓存机制：低128位直接映射到ARM的NEON寄存器，高128位则存储在内存中，并通过位掩码(ymm0)跟踪哪些寄存器的高位部分被清零。

在如下x86汇编循环中：

vaddps (%rax),%ymm1,%ymm1
add $0x20,%rax
cmp %rdi,%rax
jne 8f6088

Box64生成的ARM指令显示，在跳转指令(JNZ)执行前，虽然检测到YMM1寄存器已被修改(ymmUsed=0002)，但未能正确将高128位数据写回内存。这导致循环跳转后，后续指令可能读取到过时的高位数据。

寄存器状态跟踪：Box64使用ymm0位图(16位)跟踪YMM寄存器高位状态，其中bit1对应YMM1的高位修改状态。
缓存机制缺陷：
- 循环中VADDPS指令修改了YMM1的完整256位值
- 跳转前的状态检查未正确处理"部分更新"情况（仅高位被修改）
- 缺少必要的写回操作(STR Q8, [xEmu, 0x1b0])
相关优化：对于VXORPS等清零指令，Box64采用惰性更新策略，仅设置ymm0标志位，延迟实际的内存清零操作，这在大多数情况下是正确的优化。