Ragas项目中Agentic AI指标评估问题的分析与解决

2025-05-26 14:58:39作者：钟日瑜

问题背景

在Ragas项目（一个用于评估AI生成内容质量的Python库）的使用过程中，开发者在尝试评估Agentic AI指标（特别是主题一致性和代理目标准确性）时遇到了技术障碍。这个问题主要出现在使用AzureChatOpenAI作为语言模型的情况下，当尝试运行AgentGoalAccuracyWithReference等代理相关指标时，系统会抛出"TypeError: object of type 'StringPromptValue' has no len()"的错误。

错误现象分析

该错误通常发生在以下场景中：

开发者使用AzureChatOpenAI实例直接作为评分器的语言模型
尝试评估多轮对话样本(MultiTurnSample)的代理目标准确性
系统在处理提示值时，错误地将StringPromptValue对象当作可测量长度的序列来处理

错误堆栈显示问题起源于LangChain核心库的chat_models.py文件，当尝试获取消息批处理大小时，系统无法正确处理StringPromptValue类型的对象。

根本原因

经过深入分析，问题的核心在于：

Ragas库与LangChain库在消息处理机制上存在不兼容
直接使用AzureChatOpenAI实例时，缺少必要的适配层来转换消息格式
代理指标评估流程中对消息类型的假设与实际提供的类型不匹配

解决方案

针对这一问题，Ragas社区提供了有效的解决方案：

使用LangchainLLMWrapper进行封装 通过将AzureChatOpenAI实例用LangchainLLMWrapper进行封装，可以确保消息格式的正确转换和处理：

from ragas.llms import LangchainLLMWrapper

# 封装AzureChatOpenAI实例
scorer.llm = LangchainLLMWrapper(azure_model)

明确使用Ragas消息类型 在构建多轮对话样本时，确保使用Ragas库提供的消息类型，而不是LangChain的消息类型：

import ragas.messages as r

messages = [
    r.HumanMessage(content="用户输入"),
    r.AIMessage(content="AI响应"),
    r.ToolMessage(content="工具输出")
]

技术要点

Wrapper模式的重要性 在集成不同AI框架时，适配器/包装器模式能够有效解决接口不兼容问题。LangchainLLMWrapper在这里充当了Ragas和LangChain之间的桥梁。
消息类型的统一性 AI对话系统中的消息类型定义需要保持一致，不同库可能对相同概念有不同的实现方式，明确使用特定库的消息类型可以避免混淆。
异步评估流程 Ragas的代理指标评估采用异步模式，开发者需要确保在异步上下文中正确调用相关方法。