Cheshire Cat AI 核心库中OpenAI兼容嵌入器的媒体类型问题解析

2025-06-29 05:39:45作者：仰钰奇

在Cheshire Cat AI项目的核心库中，开发者报告了一个关于OpenAI兼容嵌入器配置(EmbedderOpenAICompatibleConfig)的重要问题。本文将深入分析该问题的技术细节、解决方案及其背后的原理。

问题现象

当开发者尝试使用SentenceTransformer("multi-qa-MiniLM-L6-cos-v1")模型并通过EmbedderOpenAICompatibleConfig配置嵌入器时，Flask服务器返回了HTTP 415(UNSUPPORTED MEDIA TYPE)错误。这表明客户端发送的请求内容类型不被服务器接受。

具体错误发生在自定义嵌入器(custom_embedder.py)的embed_documents方法中，当尝试向本地服务器发送POST请求到/v1/embeddings端点时，由于缺少正确的Content-Type头部信息，导致服务器拒绝处理请求。

技术背景

HTTP 415错误通常发生在以下情况：

客户端发送的请求缺少Content-Type头部
Content-Type值与服务器期望的不匹配
请求体格式与Content-Type声明不符

在OpenAI API兼容性实现中，正确的Content-Type应该是"application/json"，因为OpenAI的API规范要求JSON格式的请求体。

问题根源分析

通过检查核心库中的custom_embedder.py文件，发现以下问题：

原始的HTTP请求发送时没有设置Content-Type头部
虽然请求体是JSON格式，但没有明确告知服务器
服务器端无法自动推断请求内容类型，因此拒绝处理

解决方案

开发者提供了有效的修复方案，主要修改点包括：

在发送请求前，明确将Python对象序列化为JSON字符串
添加必要的HTTP头部：
- Content-type: application/json
- Accept: application/json

具体实现如下：

def embed_documents(self, texts: List[str]) -> List[List[float]]:
    payload = json.dumps({"input": texts})
    headers = {'Content-type': 'application/json', 'Accept': 'application/json'}
    ret = httpx.post(self.url, data=payload, timeout=None, headers=headers)
    ret.raise_for_status()
    return [e['embedding'] for e in ret.json()['data']]