Llama Index项目中处理Azure OpenAI嵌入模型速率限制的最佳实践

2025-05-02 00:31:18作者：沈韬淼Beryl

在Llama Index项目中，当使用Azure OpenAI嵌入模型处理大文档时，开发者经常会遇到速率限制问题。本文将深入探讨如何构建一个健壮的嵌入模型类，有效处理速率限制错误，确保文档能够完整地被处理。

问题背景

当通过Llama Index的Ingestion Pipeline处理大文档时，Azure OpenAI嵌入模型经常会返回429速率限制错误。默认情况下，管道不会自动重试，导致处理过程中断。这给需要处理大量文档的开发者带来了挑战。

核心解决方案

自定义嵌入模型类

我们需要创建一个自定义的嵌入模型类，继承自BaseEmbedding基类，并实现所有必需的抽象方法。这个类将封装AzureOpenAIEmbedding的功能，并添加重试机制。

from tenacity import retry, wait_random_exponential, stop_after_attempt
from llama_index.embeddings.azure_openai import AzureOpenAIEmbedding
from llama_index.core.embeddings import BaseEmbedding

class CustomAzureEmbedding(BaseEmbedding):
    def __init__(self, **kwargs):
        super().__init__()
        self._model = AzureOpenAIEmbedding(
            model="text-embedding-ada-002",
            deployment_name="text-embedding-ada-002",
            **kwargs
        )

实现重试机制

使用tenacity库的retry装饰器，我们可以为每个嵌入方法添加指数退避的重试策略：

retry_strategy = retry(
    wait=wait_random_exponential(min=10, max=20),
    stop=stop_after_attempt(1000)
)

@retry_strategy
async def _aget_text_embedding(self, text: str) -> List[float]:
    return await self._model._aget_text_embedding(text)

完整实现所有必需方法

BaseEmbedding基类要求实现多个抽象方法，我们需要确保全部覆盖：

@retry_strategy
async def _aget_query_embedding(self, query: str) -> List[float]:
    return await self._model._aget_query_embedding(query)

@retry_strategy
def _get_query_embedding(self, query: str) -> List[float]:
    return self._model._get_query_embedding(query)

@retry_strategy
def _get_text_embedding(self, text: str) -> List[float]:
    return self._model._get_text_embedding(text)

@retry_strategy
def _get_text_embeddings(self, texts: List[str]) -> List[List[float]]:
    return [self._model._get_text_embedding(text) for text in texts]

高级配置选项

调整重试参数

根据实际需求，可以调整重试策略的参数：

wait_random_exponential: 控制重试间隔的随机指数退避
stop_after_attempt: 设置最大重试次数
可以添加retry_error_callback来处理特定类型的异常

批量处理优化

对于大批量文档，可以考虑以下优化：

实现分批处理机制，控制每次请求的文档数量
添加并发控制，避免同时发送过多请求
实现进度保存功能，支持断点续传

集成到Ingestion Pipeline

完成自定义嵌入模型类后，可以轻松地将其集成到Llama Index的Ingestion Pipeline中：

transformations = [
    TextCleaner(),
    TokenTextSplitter(chunk_size=512),
    CustomAzureEmbedding(api_key="your_key", azure_endpoint="your_endpoint"),
    TitleExtractor()
]

pipeline = IngestionPipeline(transformations=transformations)