Lemonade SDK 技术解析：大语言模型部署与优化工具指南

2025-06-24 23:44:28作者：姚月梅Lane

Lemonade helps users discover and run local AI apps by serving optimized LLMs right from their own GPUs and NPUs. Join our discord: https://discord.gg/5xXzkMu8Zk

项目地址：https://gitcode.com/gh_mirrors/lemonade2/lemonade

前言

Lemonade SDK 是一个专注于大语言模型(LLM)部署与优化的开发工具包，特别针对 AMD 硬件平台进行了深度优化。本文将全面解析该工具的核心功能和使用方法，帮助开发者高效部署和优化大语言模型应用。

安装与配置

基础安装

在 Python 3 环境中，执行以下命令即可完成基础安装：

pip install lemonade-sdk[llm]

此命令将安装支持 Hugging Face (PyTorch) LLMs 在 CPU 上运行的基础组件。

硬件加速支持

NPU 混合执行模式

针对 Ryzen™ AI 300 系列设备，Lemonade SDK 提供了独特的混合执行(Hybrid Execution)能力：

技术原理：NPU 负责处理提示(prompt)并生成首个令牌(token)，后续令牌由集成的 Ryzen AI GPU(iGPU)计算
优势：显著降低首令牌生成时间(TTFT)，提升整体响应速度

GPU 执行支持

Lemonade SDK 通过 Vulkan llama.cpp 二进制文件为各种 GPU 提供支持：

集成 GPU(iGPU)：适用于大多数笔记本 SoC
独立 GPU(dGPU)：适用于台式机和工作站

注意：当前版本中，GPU 支持不包含基准测试等 CLI 任务

命令行工具详解

Lemonade CLI 采用独特的命令语法设计，实现了模型、框架、设备和部署选项之间的灵活组合。

命令结构解析

每个功能单元称为"工具"(Tool)，单次命令可串联多个工具。例如：

lemonade -i amd/Llama-3.2-1B-Instruct-awq-g128-int4-asym-fp16-onnx-hybrid --device hybrid --dtype int4 llm-prompt -p "Hello, my thoughts are"

这条命令可分解为：

加载优化后的 Llama-3.2-1B 模型
使用混合设备(int4 精度)
执行提示生成任务

核心功能工具

1. 模型提示生成

支持多种框架的模型提示：

OGA 混合模式示例：

lemonade -i amd/Llama-3.2-1B-Instruct-awq-g128-int4-asym-fp16-onnx-hybrid --device hybrid --dtype int4 llm-prompt -p "你的提示内容" -t

Hugging Face 示例：

lemonade -i facebook/opt-125m huggingface-load llm-prompt -p "你的提示内容" -t

-t 参数表示使用模型的聊天模板，通常能获得更高质量的响应。

2. 模型精度评估

使用 MMLU 基准测试评估模型精度：

lemonade -i 模型标识 accuracy-mmlu --tests 测试科目

支持单独测试特定科目或完整测试套件。

3. 性能基准测试

测量首令牌时间和吞吐量：

lemonade -i 模型标识 oga-bench  # OGA框架
lemonade -i 模型标识 huggingface-bench  # Hugging Face框架

支持自定义提示大小、输出令牌数和迭代次数。

4. 综合报告生成

整合所有测试结果：

lemonade report --perf

可按模型、设备类型和数据类型筛选结果。

5. 内存使用分析

lemonade --memory -i 模型标识 测试工具

生成内存使用曲线图，帮助优化资源配置。

API 开发接口

高级 API

提供类似 Hugging Face 的简洁接口：

from lemonade.api import from_pretrained

# 加载模型和分词器
model, tokenizer = from_pretrained("模型标识", recipe="oga-hybrid")

# 生成文本
input_ids = tokenizer("提示文本", return_tensors="pt").input_ids
response = model.generate(input_ids, max_new_tokens=30)

print(tokenizer.decode(response[0]))

低级 API

提供更灵活的定制能力：

import lemonade.tools.torch_llm as tl
import lemonade.tools.prompt as pt
from lemonade.state import State

# 初始化状态
state = State(cache_dir="cache", build_name="test")

# 分步执行
state = tl.HuggingfaceLoad().run(state, input="facebook/opt-125m")
state = pt.Prompt().run(state, prompt="hi", max_new_tokens=15)

print("Response:", state.response)