DynamoRIO项目中ARM架构下Thumb指令编码长度问题的分析与解决

2025-06-28 00:01:41作者：郁楠烈Hubert

问题背景

在DynamoRIO项目的drmemtrace组件中，开发人员发现了一个与ARM架构Thumb指令集相关的断言失败问题。该问题出现在32位ARM系统上，当处理某些具有多种编码形式的Thumb指令时，系统会触发一个断言错误。

技术细节

Thumb指令集是ARM架构中的一种16位指令集，旨在提高代码密度。然而，从Thumb-2开始，指令集扩展支持了16位和32位混合编码。某些指令（如LDR）既有16位编码形式，也有32位编码形式（通过.w后缀显式指定）。

问题的核心在于raw2trace.cpp文件中的断言检查：

DEBUG_ASSERT(*pc - desc->pc_ == instr_length(dcontext, instr));

这个断言假设指令的编码长度在解码和重新编码过程中保持不变。然而在ARM Thumb指令集中，某些指令（如LDR）可能有两种编码形式：

16位（2字节）编码
32位（4字节）编码（使用.w后缀）

问题复现

开发人员提供了一个简单的汇编代码示例来复现该问题：

.arch armv7-a
.syntax unified
.text
.thumb
.thumb_func
.global _start
.type _start, %function
_start:
    ldr.w r0, [sp]  // 显式使用32位编码
    mov r7, #248     // SYS_exit_group
    svc #0

当使用32位编码的LDR指令时，DynamoRIO在指令解码和重新编码过程中可能会改变指令的编码长度，从而导致断言失败。

解决方案

经过讨论，开发团队确认这是一个已知问题（相关编号4016），根本原因是ARM架构下原始指令位在解码过程中丢失。长期解决方案是实现完整的指令位保留机制。

作为临时解决方案，开发团队决定在ARM架构下禁用该断言检查，因为Thumb指令的重新编码确实可能改变其长度。修改后的代码如下：

#ifndef ARM /* FIXME i#4016: Reencoding a T32 instruction can change its length from 4 to 2. */
    DEBUG_ASSERT(*pc - desc->pc_ == instr_length(dcontext, instr));
#endif