【免费下载】将LLaMA模型导出为ONNX格式的教程

2026-01-21 05:17:57作者：幸俭卉

项目介绍

export_llama_to_onnx 是一个开源项目，旨在将类似于LLaMA的大型语言模型（LLM）导出为ONNX格式，而无需修改 transformers 库中的 modeling_xx_model.py 文件。该项目支持多种模型，包括LLaMA、Alpaca等，并且还支持Baichuan、Alibaba Qwen、ChatGlm2/ChatGlm3、Gemma和Bloom等模型。

项目快速启动

安装依赖

首先，确保你已经安装了必要的依赖包：

pip install -r requirements.txt

导出LLaMA模型为ONNX格式

以下是一个简单的示例，展示如何将LLaMA模型导出为ONNX格式：

python export_llama.py -m model_dir -o out_dir --dtype fp16

导出Qwen模型为ONNX格式

如果你需要导出Qwen模型，可以使用以下命令：

python export_qwen_naive.py -m model_dir -o out_dir --dtype fp16

在导出Qwen模型之前，建议替换 modeling_qwen.py 中的 rearrange 操作，以简化导出的ONNX模型。

导出ChatGlm2模型为ONNX格式

导出ChatGlm2模型的命令如下：

python export_chatglm2.py -m model_dir --dtype fp16

请确保使用PyTorch 2.1或更高版本（如果尚未发布，请使用最新的nightly版本）。

应用案例和最佳实践

案例1：LLaMA模型的ONNX导出

假设你有一个LLaMA模型的目录 model_dir，你可以使用以下命令将其导出为ONNX格式：

python export_llama.py -m model_dir -o out_dir --dtype fp16

案例2：Qwen模型的ONNX导出

对于Qwen模型，你可以使用以下命令进行导出：

python export_qwen_naive.py -m model_dir -o out_dir --dtype fp16

最佳实践

使用合适的ONNX opset版本：在导出模型时，可以通过 --opset 参数设置ONNX opset版本。
添加topk warper：使用 --add_topk_warper 参数可以为ONNX模型添加topk warper。
卸载FlashAttention：在模型转换之前，请卸载或禁用FlashAttention（和可能的xformers）。

典型生态项目

1. ONNX Runtime

ONNX Runtime 是一个高性能的推理引擎，支持多种硬件加速，包括CPU、GPU和FPGA。通过将模型导出为ONNX格式，可以利用ONNX Runtime进行高效的推理。

2. Hugging Face Transformers

Hugging Face 的 transformers 库提供了丰富的预训练模型，支持多种模型架构。通过 export_llama_to_onnx 项目，可以将这些模型导出为ONNX格式，以便在不同的推理环境中使用。

3. PyTorch

PyTorch 是一个广泛使用的深度学习框架，支持动态计算图和高效的GPU加速。通过 export_llama_to_onnx 项目，可以将PyTorch模型导出为ONNX格式，以便在其他推理引擎中使用。

4. ONNX Simplifier

onnxsim_large_model 是一个用于简化大型ONNX模型的工具。通过使用该工具，可以进一步优化导出的ONNX模型，提高推理性能。

通过以上步骤和工具，你可以轻松地将LLaMA等大型语言模型导出为ONNX格式，并在不同的推理环境中进行高效部署。

export_llama_to_onnx

export llama to onnx

项目地址：https://gitcode.com/gh_mirrors/ex/export_llama_to_onnx

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

347

193

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

1.12 K

265

【免费下载】将LLaMA模型导出为ONNX格式的教程

项目介绍

项目快速启动

安装依赖

导出LLaMA模型为ONNX格式

导出Qwen模型为ONNX格式

导出ChatGlm2模型为ONNX格式

应用案例和最佳实践

案例1：LLaMA模型的ONNX导出

案例2：Qwen模型的ONNX导出

最佳实践

典型生态项目

1. ONNX Runtime

2. Hugging Face Transformers

3. PyTorch

4. ONNX Simplifier

热门内容推荐

最新内容推荐

项目优选

【免费下载】 将LLaMA模型导出为ONNX格式的教程

项目介绍

项目快速启动

安装依赖

导出LLaMA模型为ONNX格式

导出Qwen模型为ONNX格式

导出ChatGlm2模型为ONNX格式

应用案例和最佳实践

案例1：LLaMA模型的ONNX导出

案例2：Qwen模型的ONNX导出

最佳实践

典型生态项目

1. ONNX Runtime

2. Hugging Face Transformers

3. PyTorch

4. ONNX Simplifier

热门内容推荐

最新内容推荐

项目优选

【免费下载】将LLaMA模型导出为ONNX格式的教程