angr项目中Fortran程序的符号执行问题解析

2025-05-28 16:18:12作者：冯梦姬Eddie

符号执行是一种强大的程序分析技术，能够自动探索程序的执行路径。本文将以angr符号执行引擎为例，探讨在分析Fortran程序时遇到的特殊问题及其解决方案。

问题背景

在尝试将angr的"helloworld"符号执行示例从C语言移植到Fortran时，出现了预期之外的结果。C版本能够正确识别触发HelloWorld函数的输入参数范围（51-99），而Fortran版本却输出了一些异常值（如0、4026531840等）。

根本原因分析

经过深入分析，发现这一问题源于两个关键差异：

参数传递方式差异：Fortran默认采用传引用（pass-by-reference）方式，而C语言采用传值（pass-by-value）方式。这意味着Fortran函数接收的是参数的地址而非值本身。
字节序处理差异：当符号值被存储到内存时，angr默认会进行字节序反转（endianness reversal），导致后续的约束求解产生错误结果。

解决方案

1. 正确处理传引用参数

在angr中，我们需要模拟Fortran的传引用行为。有两种实现方式：

方法一：使用PointerWrapper

init_state = project.factory.call_state(
    firstCall_addr.rebased_addr, 
    angr.PointerWrapper(input_arg),
    prototype="void firstCall(int *num)"
)

方法二：显式内存分配

blank_state = project.factory.blank_state()
blank_state.register_plugin("heap", angr.state_plugins.heap.heap_ptmalloc.SimHeapPTMalloc())
ptr = blank_state.heap.malloc(4)
blank_state.memory.store(ptr, input_arg, endness=project.arch.memory_endness)

init_state = project.factory.call_state(
    firstCall_addr.rebased_addr, 
    ptr,
    base_state=blank_state,
    prototype="void firstCall(int *num)"
)

2. 正确处理字节序

关键在于正确指定函数原型（prototype）和存储方式：

在call_state中明确指定函数原型
使用project.arch.memory_endness指定正确的字节序
或者使用state.mem接口自动处理字节序

完整解决方案

import angr, claripy

# 加载二进制文件
project = angr.Project('./a.f90.out', auto_load_libs=False)

# 获取函数地址
firstCall_addr = project.loader.main_object.get_symbol("helloworldprogram_IP_firstcall_")
helloWorld_addr = project.loader.main_object.get_symbol("helloworldprogram_IP_helloworld_")

# 创建符号变量
input_arg = claripy.BVS('input_arg', 32)

# 创建初始状态
init_state = project.factory.call_state(
    firstCall_addr.rebased_addr,
    angr.PointerWrapper(input_arg),
    prototype="void firstCall(int *num)"
)

# 创建模拟管理器
simgr = project.factory.simulation_manager(init_state)

# 探索目标路径
simgr.explore(find=helloWorld_addr.rebased_addr)

# 处理结果
if simgr.found:
    input_value = simgr.found[0].solver.eval(input_arg)
    print(f"触发HelloWorld的输入值: {input_value}")
    
    constraints = simgr.found[0].solver.constraints
    solver = claripy.Solver()
    solver.add(constraints)
    
    min_val = solver.min(input_arg)
    max_val = solver.max(input_arg)
    print(f"参数范围: 最小值 = {min_val}, 最大值 = {max_val}")
else:
    print("未找到触发HelloWorld的路径")

技术要点总结

语言特性差异：不同编程语言的ABI（应用二进制接口）差异会显著影响符号执行的结果。Fortran的传引用特性需要特别处理。
字节序问题：内存存储时的字节序处理是符号执行中的常见陷阱，需要根据目标架构正确处理。
函数原型指定：在angr中明确指定函数原型可以避免很多隐式转换问题，特别是在处理指针参数时。
状态初始化：正确初始化模拟状态是符号执行成功的关键，需要考虑参数传递方式、内存布局等因素。

通过理解这些关键点，开发者可以更有效地使用angr分析各种语言编写的程序，包括那些采用非标准ABI的语言如Fortran。

angr

A powerful and user-friendly binary analysis platform!

项目地址：https://gitcode.com/gh_mirrors/an/angr

登录后查看全文