LLM4Decompile项目中的数据集完整性挑战与解决方案

2025-06-07 03:53:09作者：董斯意

在LLM4Decompile项目中，研究人员发现了一个关键的技术挑战：使用目标文件(object files)而非完整链接的可执行文件生成汇编表示时，会导致数据集完整性受损。这一问题直接影响着基于该数据集训练的模型性能。

问题本质分析

当使用未链接的目标文件时，汇编代码中存在两个主要的技术缺陷：

外部函数调用处理不当：所有调用外部函数的指令(callq)都无法正确指向目标地址，而是简单地指向下一条指令。这使得模型难以区分不同的外部函数调用。
立即数值处理问题：与外部函数相关的立即数值被留空，导致汇编表示不完整。

实际影响示例

以一个包含strlen、malloc和strncpy调用的函数为例，其反汇编结果中所有callq指令都指向错误位置。这种不完整的汇编表示使得即使是当前最先进的反编译器也难以正确还原原始C代码。

技术解决方案演进

项目团队最初使用Anghabench作为训练材料，该数据集仅支持编译而不支持链接。为解决这一问题，研究人员探索了以下方向：

转向可执行文件数据集：考察exebench等支持完整链接的数据集
自主构建数据集：收集能够生成可执行文件的代码样本
模型架构优化：使模型能够基于统计规律推测缺失的函数和类型信息

行业对比

除LLM4Decompile外，业内还存在其他优秀的机器语言处理项目，如专注于机器语言建模的MLM项目和BinaryAI的单文件反编译系统。这些项目采用了不同的技术路线，共同推动着二进制代码分析领域的发展。

未来展望

尽管已取得进展，处理多函数文件和复杂类型定义仍是LLM4Decompile面临的主要挑战。项目团队将继续优化数据集和模型架构，以提升对真实世界二进制代码的反编译能力。

LLM4Decompile

Reverse Engineering: Decompiling Binary Code with Large Language Models

项目地址：https://gitcode.com/GitHub_Trending/ll/LLM4Decompile

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

392

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

987

LLM4Decompile项目中的数据集完整性挑战与解决方案

问题本质分析

实际影响示例

技术解决方案演进

最新进展

行业对比

未来展望

项目优选