LLM4Decompile：AI驱动的二进制逆向工程新范式

2026-04-03 09:48:09作者：裘晴惠Vivianne

Reverse Engineering: Decompiling Binary Code with Large Language Models

项目地址：https://gitcode.com/GitHub_Trending/ll/LLM4Decompile

价值定位：重新定义二进制分析效率

在软件逆向工程领域，反编译（将二进制文件转化为可读源代码的过程）长期面临精度与效率的双重挑战。LLM4Decompile作为首个专注于反编译任务的开源大语言模型，通过22亿-token级别的训练数据与多阶段优化架构，实现了对Linux x86_64平台二进制文件（支持GCC O0-O3优化级别）的高精度逆向转换。其核心价值在于：

跨优化级支持：突破传统工具对高优化二进制的解析瓶颈
可执行性优先：生成代码重执行率最高达63.6%（V2系列模型）
架构兼容性：深度整合Ghidra等专业逆向工具链

技术原理：从机器码到源代码的智能转换

LLM4Decompile采用创新的双向流程设计，构建了从二进制到源代码的完整映射路径：

核心技术路径：

二进制解析层：通过反汇编工具将二进制文件转换为汇编指令
特征提取层：识别控制流结构与数据依赖关系
代码生成层：基于预训练模型生成结构化C代码
优化验证层：通过语法检查与执行测试提升代码可用性

关键创新点：采用"骨架恢复→标识符命名"的两阶段架构，先重建代码结构再优化变量命名，平衡准确性与可读性。

实践路径：从零开始的反编译工作流

环境准备

克隆项目仓库

git clone https://gitcode.com/GitHub_Trending/ll/LLM4Decompile
cd LLM4Decompile

创建专用环境

conda create -n 'llm4decompile' python=3.9 -y
conda activate llm4decompile
pip install -r requirements.txt

核心处理步骤

二进制预处理
- 将目标文件反汇编为汇编代码
- 提取函数级别的汇编片段
模型加载与配置
- 选择适合需求的模型版本（1.3B-22B参数）
- 配置推理参数（max_new_tokens=2048）
代码生成与优化
- 执行模型推理生成初始代码
- 通过内置验证工具检查语法正确性
结果验证
- 编译生成代码验证可执行性
- 根据错误提示迭代优化

能力对比：主流反编译方案性能矩阵

工具/模型	重执行率（HumanEval平均）	重执行率（MBPP平均）	支持优化级别	架构依赖
Ghidra	13.57%	16.02%	O0-O3	高
IDA	18.22%	24.49%	O0-O2	高
GPT-4.1-mini	13.42%	19.89%	O0-O1	低
LLM4Decompile V1.5	16.22%	20.54%	O0-O3	中
LLM4Decompile V2	20.89%	24.93%	O0-O3	低

场景拓展：从安全分析到代码审计

安全研究应用

恶意代码快速分析：将可疑二进制转换为可读代码
漏洞挖掘辅助：识别二进制文件中的潜在安全缺陷
恶意逻辑还原：追踪攻击载荷的实现机制

软件开发支持

闭源库逆向：理解第三方组件内部逻辑
legacy代码迁移：将无源码二进制转换为可维护代码
代码审计：对无源码软件进行安全评估

常见问题解决

Q: 生成代码无法编译怎么办？
A: 检查是否启用了对应优化级别的模型，建议使用V2系列模型提升语法正确性
Q: 如何处理大型二进制文件？
A: 使用函数级提取工具分割二进制，避免单次处理过大输入
Q: 模型推理速度慢如何优化？
A: 降低max_new_tokens参数，或使用量化版本模型（如INT8量化）
Q: 反编译结果与原始代码差异大？
A: 尝试启用两阶段优化流程，先结构恢复再标识符优化

进阶学习路径

核心技术深入
- 模型训练模块：train/
- 评估框架：evaluation/
扩展应用开发
- Ghidra插件开发：ghidra/
- 自定义数据集构建：decompile-bench/data/
学术研究方向
- 代码生成质量评估：sk2decompile/evaluation/
- 多架构支持扩展：sk2decompile/verl/

项目贡献指南

LLM4Decompile欢迎社区贡献，主要参与方向包括：

数据集扩展：提交新的二进制-源代码对
模型优化：改进推理效率与准确性
工具链整合：扩展对更多反编译工具的支持
文档完善：补充使用案例与技术说明

贡献流程：

Fork项目仓库
创建特性分支（feature/xxx）
提交PR并描述功能改进
通过代码审查后合并

通过持续优化模型架构与训练数据，LLM4Decompile正逐步突破传统反编译技术的局限，为软件逆向工程领域提供智能化解决方案。无论是安全研究员还是开发工程师，都能通过这个开源工具链提升二进制分析效率，解锁隐藏在机器码背后的程序逻辑。

Reverse Engineering: Decompiling Binary Code with Large Language Models

项目地址：https://gitcode.com/GitHub_Trending/ll/LLM4Decompile

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

昇腾LLM分布式训练框架

flutter_flutter

deepin linux kernel

Oohos_react_native

React Native鸿蒙化仓库

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统