Xorbits Inference 1.4.0 版本发布：多模态与函数调用能力全面升级

2025-06-08 21:47:37作者：秋泉律Samson

Swap GPT for any LLM by changing a single line of code. Xinference lets you run open-source, speech, and multimodal models on cloud, on-prem, or your laptop — all through one unified, production-ready inference API.

项目地址：https://gitcode.com/GitHub_Trending/in/inference

Xorbits Inference 是一个开源的模型推理框架，旨在为开发者提供高效、灵活的模型部署和推理解决方案。该项目支持多种主流模型架构，包括文本生成、视觉理解等多模态能力，并提供了丰富的API接口和工具链，帮助开发者快速构建AI应用。

核心功能增强

Gemma-3 多模态支持

本次1.4.0版本最重要的更新之一是对Gemma-3系列模型的全面支持。Gemma-3是Google推出的新一代开源大模型，具有强大的文本理解和生成能力。Xorbits Inference现在不仅支持Gemma-3的纯文本版本(gemma-3 text)，还特别增加了对Gemma-3-it视觉版本的支持，这意味着开发者现在可以利用Gemma-3处理包含图像的复杂多模态任务。

Gemma-3-it视觉模型的集成使得Xorbits Inference在图像理解、图文生成等场景下的能力得到显著提升。开发者可以构建更丰富的多模态应用，如智能客服、内容审核、教育辅助等。

Deepseek V3 函数调用能力

另一个重要特性是新增了对Deepseek V3模型的函数调用支持。函数调用是大语言模型(LLM)领域的一项重要技术，它允许模型在执行过程中调用外部函数或工具，从而扩展模型的能力边界。

Xorbits Inference 1.4.0版本中，开发者现在可以利用Deepseek V3模型实现：

动态工具调用：模型可以根据上下文自动选择合适的工具
结构化输出：以标准化的格式返回函数调用结果
复杂任务分解：将复杂问题拆解为多个函数调用步骤

这一特性特别适合构建需要与外部系统交互的AI应用，如数据分析、自动化流程等场景。

性能与稳定性优化

推理后端改进

在底层推理引擎方面，1.4.0版本对xllamacpp后端进行了重要改进，现在当推理过程出现错误时会明确抛出异常，帮助开发者更快定位和解决问题。同时修复了vLLM后端中enable_prefix_caching参数的兼容性问题，提升了缓存机制的可靠性。

流式API支持

针对Deepseek模型，新版本增加了流式API支持，这意味着开发者可以实时获取模型的生成结果，而不必等待整个响应完成。这一特性对于构建实时交互应用至关重要，如聊天机器人、实时翻译等场景。

开发者体验提升

文档完善

1.4.0版本在文档方面做了大量补充，特别是新增了xllamacpp后端的使用指南和HTTP请求的身份验证说明。这些文档帮助开发者更快上手Xorbits Inference的各种功能，减少集成过程中的障碍。

用户界面优化

在Web界面方面，修复了暗黑模式下的显示问题，并调整了GPU资源配置的表述方式，使其更加清晰易懂。同时移除了对llama.cpp模型在GPU数量上的不必要限制，提供了更灵活的部署选项。

技术细节与使用建议

对于希望升级到1.4.0版本的开发者，以下是一些技术建议：

多模态应用开发：当使用Gemma-3-it视觉模型时，建议预先处理好输入图像的大小和格式，以获得最佳性能。
函数调用实践：在使用Deepseek V3的函数调用功能时，建议先定义清晰的工具规范，包括工具名称、描述和参数格式，这将显著提升模型调用工具的准确性。
性能调优：对于生产环境部署，可以尝试调整enable_prefix_caching等参数以获得更好的吞吐量，特别是在处理大量相似前缀的请求时。

Xorbits Inference 1.4.0版本的发布标志着该项目在多模态支持和功能性扩展方面迈出了重要一步。随着这些新特性的加入，开发者现在能够构建更加复杂、功能更丰富的AI应用，同时得益于框架本身的稳定性和易用性提升，开发效率也将得到显著提高。

Swap GPT for any LLM by changing a single line of code. Xinference lets you run open-source, speech, and multimodal models on cloud, on-prem, or your laptop — all through one unified, production-ready inference API.

项目地址：https://gitcode.com/GitHub_Trending/in/inference

登录后查看全文

项目优选

收起

deepin linux kernel

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。