Ragas项目中Gemini/VertexAI嵌入模型处理空文本的技术解析

2025-05-26 12:36:08作者：劳婵绚Shirley

问题背景

在使用Ragas评估框架进行问答系统评估时，当采用Gemini/VertexAI的嵌入模型(text-embedding-004)时，会遇到"InvalidArgument: 400 The text content is empty"的错误。这个问题特别出现在评估数据集中包含空字符串的情况下，而同样的数据集使用OpenAI的嵌入模型(text-embedding-3-large)则能正常工作。

技术分析

不同嵌入模型的差异行为

OpenAI的嵌入模型能够优雅地处理空字符串输入，会返回一个有效的嵌入向量。而Gemini/VertexAI的嵌入模型则对空字符串输入会直接抛出400错误，认为这是无效输入。

Ragas评估流程中的关键点

在Ragas的评估流程中，answer_similarity指标需要计算答案和真实答案之间的语义相似度。这个计算过程依赖于嵌入模型将文本转换为向量表示。当遇到空字符串时：

OpenAI模型：返回一个低维度的嵌入向量
VertexAI模型：直接拒绝处理并抛出异常

底层实现差异

从错误堆栈可以看出，问题最终源自VertexAI的语言模型服务端对空字符串输入的严格校验。这与OpenAI服务端的宽松处理形成对比，体现了不同厂商API设计理念的差异。

解决方案

自定义嵌入模型包装器

通过继承VertexAIEmbeddings类并重写embed_text方法，可以实现对空字符串的特殊处理：

class RAGASVertexAIEmbeddings(VertexAIEmbeddings):
    """适配RAGAS的VertexAI嵌入模型包装器"""
    
    async def embed_text(self, text: str) -> list[float]:
        """处理文本嵌入，兼容空字符串"""
        if not text.strip():  # 如果是空字符串
            return [0.0] * 768  # 返回一个零向量
        return self.embed([text], 1, "SEMANTIC_SIMILARITY")[0]

评估流程适配

在使用Ragas进行评估时，需要将自定义的嵌入模型应用到所有相关指标：

# 初始化自定义嵌入模型
embeddings = RAGASVertexAIEmbeddings(model_name="textembedding-gecko@003")

# 为每个需要嵌入的指标设置自定义模型
for metric in metrics:
    if hasattr(metric, "embeddings"):
        metric.embeddings = embeddings