Infinity项目中的多模态嵌入接口设计探索

2025-07-04 15:02:02作者：翟萌耘Ralph

Infinity is a high-throughput, low-latency REST API for serving vector embeddings, supporting a wide range of sentence-transformer models and frameworks.

项目地址：https://gitcode.com/gh_mirrors/infi/infinity

在开源项目Infinity中，开发团队正在探索一种创新的多模态嵌入接口设计方案，旨在通过单一API端点同时支持文本、音频和图像三种模态的嵌入生成。这一设计不仅提升了API的灵活性，还保持了与OpenAI客户端的高度兼容性。

背景与动机

现代AI应用越来越需要处理多种数据模态，传统做法是为每种模态设计独立API端点，但这增加了客户端复杂度并降低了开发效率。Infinity团队希望实现一个统一接口，同时支持文本、音频和图像嵌入生成，同时保持与现有OpenAI客户端的兼容性。

技术方案设计

核心挑战在于如何在一个请求中区分不同数据类型并执行相应处理。团队采用了Pydantic的"判别联合"模式，这是一种基于类型标签的智能路由机制。

判别联合实现原理

判别联合通过类型标签自动选择正确的数据验证模式。当请求到达时，系统会检查特定字段值（如"color"或"modal_type"），然后自动选择对应的数据模型进行验证和处理。

class TextEmbeddingRequest(BaseModel):
    modal_type: Literal['text'] = 'text'
    content: str

class ImageEmbeddingRequest(BaseModel):
    modal_type: Literal['image'] = 'image'
    image_url: str

class EmbeddingRequest(RootModel):
    root: Annotated[
        Union[
            Annotated[TextEmbeddingRequest, Tag('text')],
            Annotated[ImageEmbeddingRequest, Tag('image')]
        ],
        Discriminator(lambda x: x.get('modal_type', 'text'))
    ]

这种设计允许API根据传入数据的modal_type字段自动选择正确的处理逻辑，无需开发者显式指定数据类型。

与OpenAI客户端的兼容性

为实现与OpenAI客户端的无缝集成，Infinity采用了extra_body参数传递模态信息：

# 使用OpenAI客户端调用Infinity多模态嵌入
client.embeddings.create(
    model="default",
    inputs=["https://example.com/image.jpg"],
    extra_body={"modal_type": "image"}
)

这种方式既保持了OpenAI客户端的标准用法，又扩展了对多模态的支持，包括自动重试等原生功能。