LlamaEdge 0.16.0 版本发布：增强模型支持与API改进

2025-07-02 10:06:59作者：贡沫苏Truman

LlamaEdge 是一个基于 WebAssembly 的轻量级 AI 推理框架，专注于在边缘计算环境中高效运行大型语言模型。该项目通过将模型推理能力带到边缘设备，为开发者提供了在资源受限环境中部署 AI 应用的解决方案。

最新发布的 0.16.0 版本带来了多项重要更新和改进，主要集中在模型支持扩展和 API 功能增强两个方面。

核心功能增强

1. 新增模型支持

本次更新显著扩展了支持的模型范围，新增了多个前沿的轻量级语言模型：

Phi-4：微软推出的高效小型语言模型
DeepSeek-V3：专注于中文理解与生成的模型
Qwen2-VL：支持视觉语言任务的多模态模型
Falcon3 系列：包括 7B 和 10B 参数的指令调优版本
Megrez-3B-Instruct：轻量级指令跟随模型

这些新增模型覆盖了从 3B 到 10B 参数规模，为不同计算能力的边缘设备提供了更多选择。

2. 聊天提示模板扩展

chat-prompts 组件新增了针对特定模型的模板类型：

Phi4Chat
DeepseekChat3
Qwen2vl
Megrez
Falcon3

这些预定义的模板简化了与不同模型交互的过程，开发者可以更轻松地构建符合模型特性的对话应用。

API 与服务器改进

1. 分割模式支持

llama-api-server 新增了 --split-mode 命令行选项，允许开发者控制模型输入的切分方式。这一功能对于处理长文本输入特别有用，可以优化内存使用和计算效率。

2. 预测参数调整

对 --n-predict 参数进行了重要变更：

类型从无符号整数改为有符号整数(i32)
默认值改为 -1，与 llama.cpp 保持一致
负值表示无限制预测，为长文本生成提供了灵活性

3. 请求构建器增强

endpoints 组件中的 ChatCompletionRequestBuilder 新增了 with_model 方法，简化了模型指定流程。同时引入了 max_completion_tokens 参数，取代了即将废弃的 max_tokens 字段，提供了更清晰的语义。

参数默认值优化

为了保持与 llama.cpp 的一致性，调整了多个参数的默认值：

top_p 默认值改为 0.9
temperature 默认值改为 0.8

这些调整使 LlamaEdge 的行为更符合开发者对类似工具的预期，降低了迁移和学习成本。

技术意义与应用前景

LlamaEdge 0.16.0 的发布标志着该项目在多模型支持和 API 成熟度方面的重要进步。新增的模型覆盖了从通用语言理解到多模态任务的不同场景，而 API 的改进则提升了开发体验和系统灵活性。

对于边缘计算场景，这些改进意味着：

开发者可以在更多类型的设备上部署 AI 能力
模型选择更加丰富，可以根据具体需求选择最适合的模型
API 的完善降低了集成难度，加速了应用开发周期

随着模型轻量化技术的进步和边缘计算需求的增长，LlamaEdge 这类专注于边缘 AI 推理的框架将发挥越来越重要的作用。0.16.0 版本的发布为这一趋势提供了有力的工具支持。

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

471

473

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.04 K

272