首页
/ Vercel AI SDK 对 Google Vertex AI 中 Gemini 2.5 思考预算的支持

Vercel AI SDK 对 Google Vertex AI 中 Gemini 2.5 思考预算的支持

2025-05-16 17:48:35作者:段琳惟

在最新发布的 Gemini 2.5 模型中,Google 引入了一个称为"思考预算"(thinking budget)的创新功能。这个功能允许开发者控制模型在生成响应前的内部推理过程。本文将深入探讨这一特性在 Vercel AI SDK 中的实现细节,特别是针对 Google Vertex AI 生产环境的使用场景。

思考预算的工作原理

思考预算本质上是一种计算资源分配机制。当开发者设置一个思考预算值时,模型会在这个限制范围内进行内部推理和思考。预算值越高,模型就有更多的"思考时间"来优化其响应质量;设置为0则完全禁用这一过程。

在技术实现上,思考预算通过控制模型内部的推理步骤(token)数量来工作。每个推理步骤都消耗一定的计算资源,设置预算就是限制这些步骤的总数。

Vercel AI SDK 的实现差异

Vercel AI SDK 提供了两个不同的Google模型集成包:@ai-sdk/google 和 @ai-sdk/google-vertex。最初,思考预算功能仅在@ai-sdk/google中实现,而生产环境常用的Vertex AI集成包缺少这一关键功能。

这种差异导致了开发者在迁移到生产环境时遇到兼容性问题。虽然Google的原生SDK已经支持思考预算配置,但Vertex AI的API接口并未直接暴露这一功能。

解决方案与技术实现

Vercel团队通过以下方式解决了这一问题:

  1. 在@ai-sdk/google-vertex包中实现了与@ai-sdk/google相同的思考预算接口
  2. 确保配置选项的一致性,开发者可以使用相同的语法在两个环境中工作
  3. 底层适配Vertex AI的API限制,即使原生API不直接支持思考预算功能

开发者现在可以在Vertex AI环境中使用如下配置:

const { text } = await generateText({
  model: google('gemini-2.5-pro-preview'),
  providerOptions: {
    google: {
      thinkingConfig: {
        thinkingBudget: 2048, // 可根据需求调整
      },
    },
  },
  // 其他参数...
});

生产环境最佳实践

对于生产环境部署,建议开发者:

  1. 根据响应质量需求和延迟要求调整思考预算值
  2. 在测试环境中评估不同预算值对性能和成本的影响
  3. 对于需要快速响应的场景,可以考虑设置较低的预算值或完全禁用(0)
  4. 监控API使用情况和成本,确保预算设置符合业务需求

这一功能的完整支持使得开发者能够更精细地控制Gemini 2.5模型在Vertex AI生产环境中的行为,平衡响应质量与性能成本之间的关系。

登录后查看全文

项目优选

收起
kernelkernel
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
471
466
kernelkernel
deepin linux kernel
C
32
16
atomcodeatomcode
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started
Rust
2.09 K
218
ops-nnops-nn
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
700
1.4 K
docsdocs
暂无描述
Dockerfile
780
5.08 K
pytorchpytorch
Ascend Extension for PyTorch
Python
758
968
flutter_flutterflutter_flutter
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.04 K
271
ops-transformerops-transformer
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
880
2.03 K
mindquantummindquantum
MindQuantum is a general software library supporting the development of applications for quantum computation.
Python
183
112
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.11 K
682