Portkey-AI网关中多供应商视觉API的兼容性挑战与解决方案

2025-05-30 18:26:57作者：傅爽业Veleda

**AI Gateway：解锁多模型世界的高效通道** AI Gateway是一个革命性的工具，为开发者提供了一个快速且友好的API界面，轻松连接和管理超过200种开放与闭源的语言模型。这不仅极大加速了请求处理（速度提升至9.9倍），而且仅需约45KB的小巧体积。支持广泛的功能如缓存、故障转移、重试、超时设置、负载均衡，并可部署于边缘计算环境，确保最低延迟。无论是OpenAI还是其他多种模型，都能通过统一接口灵活调用，增强应用健壮性。企业级安全与自定义部署选项满足最严格的生产需求。立即体验或通过Portkey轻松启动，让您的应用程序无缝对接强大的AI模型生态，开启智能新时代。

项目地址：https://gitcode.com/GitHub_Trending/ga/gateway

多供应商配置下的视觉API差异问题

在Portkey-AI网关项目中，当开发者尝试使用多供应商配置调用视觉API时，会遇到一个典型的技术挑战：不同AI供应商对图像输入的处理方式存在显著差异。以Google Gemini和OpenAI为例，这两个主流AI平台对图像输入的格式要求完全不同。

Google Gemini平台要求开发者必须通过其专用的文件存储API上传图像，或者提供gs://格式的Google Cloud Storage链接。而OpenAI等其他供应商则可以直接接受标准的HTTP/HTTPS URL。这种差异在多供应商配置环境下尤为突出，因为开发者无法预先知道请求最终会被路由到哪个供应商。

技术挑战的本质

这个问题的核心在于API接口的标准化程度。在理想情况下，不同供应商的API应该遵循相同的接口规范，这样开发者才能无缝切换。但在实际应用中，各AI平台出于性能优化、安全考虑或商业策略等原因，往往会采用不同的技术实现。

对于Portkey-AI网关这样的中间件来说，如何在不破坏现有接口兼容性的前提下，支持这些差异化的供应商实现，是一个需要精心设计的架构问题。

可行的解决方案

经过技术社区的讨论，目前提出了两种主要的解决方案：

专用字段方案：为Google Gemini添加专用的图像字段，当检测到请求将路由至Gemini时，网关自动使用这个专用字段而非通用URL字段。这种方案的优点是不影响现有接口，但缺点是在使用配置ID时，开发者可能无法预知是否需要提供这个专用字段。
多URL分隔方案：采用特殊的分隔符格式，如"gs://.......|https://......"，让开发者可以同时提供多种格式的URL。网关会根据最终路由的供应商类型，自动选择适合的URL格式。这种方案保持了接口的统一性，且具有良好的扩展性，未来可以支持更多供应商的特殊需求。