Xinference项目中使用vLLM后端实现工具调用的技术解析

2025-05-29 19:31:06作者：尤峻淳Whitney

Replace OpenAI GPT with another LLM in your app by changing a single line of code. Xinference gives you the freedom to use any LLM you need. With Xinference, you're empowered to run inference with any open-source language models, speech recognition models, and multimodal models, whether in the cloud, on-premises, or even on your laptop.

项目地址：https://gitcode.com/GitHub_Trending/in/inference

背景介绍

Xinference作为一个开源的大模型推理框架，支持多种推理后端，其中vLLM因其高效的内存管理和推理性能而广受欢迎。在实际应用中，许多开发者希望通过vLLM后端实现模型的工具调用功能，但在配置过程中遇到了参数传递问题。

问题现象

在Xinference 1.2.2版本中，当尝试通过vLLM后端启动支持工具调用的模型时，会遇到以下关键错误：

AsyncEngineArgs.__init__() got an unexpected keyword argument 'enable-auto-tool-choice'

类似的，当使用下划线形式的参数名enable_auto_tool_choice时，也会出现相同的错误提示。这表明Xinference框架在将参数传递给vLLM引擎时存在兼容性问题。

技术分析

vLLM引擎参数机制

vLLM引擎的AsyncEngineArgs类定义了可接受的初始化参数，而Xinference框架在封装vLLM后端时，直接将所有用户提供的参数传递给了引擎初始化函数。这种设计导致了不兼容参数的传递问题。

工具调用支持

要实现工具调用功能，vLLM服务需要以下关键参数：

--enable-auto-tool-choice：启用自动工具选择功能
--tool-call-parser hermes：指定工具调用解析器

这些参数需要在服务启动时正确配置，才能支持模型的工具调用能力。

解决方案演进

Xinference 1.3.0版本的改进

在较新的1.3.0版本中，Xinference对vLLM服务参数的配置方式进行了优化：

将参数配置改为下拉列表形式
移除了直接的工具调用选项
提供了更结构化的参数传递机制

替代解决方案

对于需要完整工具调用功能的场景，开发者可以采用以下方案：

直接使用vLLM原生服务，绕过Xinference的代理层
手动配置所需的工具调用参数
通过vLLM的原生API实现工具调用功能

最佳实践建议

版本选择：如果需要工具调用功能，建议评估使用Xinference最新版本或直接使用vLLM原生服务
参数验证：在传递自定义参数前，先查阅对应版本的vLLM文档，确认参数名称和格式
功能测试：在正式部署前，充分测试工具调用的各个场景
性能监控：工具调用可能增加推理延迟，需要监控系统资源使用情况

技术展望

随着大模型工具调用需求的增长，预计未来版本的Xinference将会：

提供更完善的工具调用支持
优化参数传递机制
增加工具调用的监控和管理功能
提供更丰富的示例和文档

总结

在Xinference框架中使用vLLM后端实现工具调用功能时，开发者需要注意版本兼容性和参数传递机制。当前版本中，直接配置工具调用参数存在限制，可以采用直接使用vLLM服务的替代方案。随着框架的迭代更新，这一功能的支持将会更加完善和易用。

inference

项目地址：https://gitcode.com/GitHub_Trending/in/inference

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理