Trulens项目中使用虚拟应用进行反馈评估的实践指南

2025-07-01 00:31:39作者：董斯意

背景介绍

Trulens是一个用于评估和监控AI模型性能的开源框架。在实际应用中，开发者经常需要对模型的输出进行多维度评估，包括上下文相关性、答案相关性、基础性等指标。本文将详细介绍如何在Trulens项目中正确使用虚拟应用(VirtualApp)进行反馈评估，并解决常见的评估结果获取问题。

核心概念

虚拟应用(VirtualApp)

虚拟应用是Trulens提供的一个特殊组件，允许开发者在不需要实际部署模型的情况下，对预设的输入输出对进行评估。这对于快速验证评估指标的有效性非常有用。

反馈函数(Feedback Functions)

Trulens通过反馈函数来评估模型表现，常见的反馈函数包括：

上下文相关性(Context-Relevance)：评估问题与上下文的相关程度
答案相关性(Answer-Relevance)：评估答案与问题的匹配程度
基础性(Groundedness)：评估答案是否基于提供的上下文
真实值一致性(GroundTruth)：评估答案与预设标准答案的一致性

实现步骤

1. 初始化环境

首先需要设置日志记录和结果存储路径，确保评估结果能够被妥善保存。同时创建TruSession实例来管理评估会话。

analytics_results_directory = os.getenv("ANALYTICS_RESULTS_DIRECTORY")
ts = datetime.now().strftime("%Y-%m-%d_%H_%M_%S")
logger = init_logger("root", os.path.join(analytics_results_directory, f"{ts}_skai_eval.log"))

tru_session = TruSession()
tru_session.reset_database()

2. 准备评估数据

评估数据通常包括三部分：

问题(query)
模型响应(response)
上下文(contexts)

data = {
    "query": ["Where is Germany?", "What is the capital of France?"],
    "response": ["Germany is in Europe", "The capital of France is Paris"],
    "contexts": [
        ["Germany is a country located in Europe."],
        ["France is a country in Europe and its capital is Paris."]
    ]
}
df = pd.DataFrame(data)

3. 配置反馈函数

使用AzureOpenAI作为评估提供者，设置各类反馈函数：

trulens_openai_provider = AzureOpenAITrulens(
    deployment_name=os.getenv("LLM_DEPLOYMENT_ID_PRIMARY")
)

# 上下文相关性反馈
f_context_relevance = Feedback(
    trulens_openai_provider.context_relevance_with_cot_reasons,
    name="Context-Relevance"
).on_input().on(context)

# 基础性反馈
f_groundedness = Feedback(
    trulens_openai_provider.groundedness_measure_with_cot_reasons,
    name="Groundedness"
).on(context.collect()).on_output()

# 答案相关性反馈
f_qa_relevance = Feedback(
    trulens_openai_provider.relevance_with_cot_reasons,
    name="Answer-Relevance"
).on_input_output()

# 真实值一致性反馈
f_groundtruth = Feedback(
    GroundTruthAgreement(golden_set, provider=trulens_openai_provider).agreement_measure,
    name="GroundTruth"
).on_input_output()

4. 创建并运行虚拟评估

创建虚拟应用评估器，添加数据并等待评估完成：

virtual_app = VirtualApp()
virtual_recorder = TruVirtual(
    app_name=app_run_name,
    app_version="simple",
    app=virtual_app,
    feedbacks=[f_context_relevance, f_qa_relevance, f_groundedness, f_groundtruth]
)

virtual_records = virtual_recorder.add_dataframe(df)

# 等待所有反馈计算完成
virtual_recorder.wait_for_feedback_results()

常见问题解决方案

评估结果获取为空的问题

开发者可能会遇到虽然打印输出显示评估结果，但通过API获取的DataFrame却为空的情况。这通常是由于：

异步计算未完成：反馈函数的计算是异步进行的，需要确保所有计算完成后再获取结果
会话范围不匹配：直接使用tru_session.get_leaderboard()而不指定app_ids可能导致结果为空

解决方案是：

# 正确获取评估结果的方式
leaderboard = tru_session.get_leaderboard()  # 不限定app_ids获取全部结果
records, feedback = tru_session.get_records_and_feedback()

结果保存最佳实践

建议将评估结果保存为CSV文件以便后续分析：

leaderboard.to_csv(
    os.path.join(analytics_results_directory, f"QA_board_results_{app_run_name}.csv"),
    index=False
)

records.to_csv(
    os.path.join(analytics_results_directory, f"QA_records_results_{app_run_name}.csv"),
    index=False
)

评估结果解读

评估结果通常包含以下维度的评分(0-1范围)：

Context-Relevance：上下文相关性，越高表示问题与上下文越相关
Answer-Relevance：答案相关性，越高表示答案与问题越匹配
Groundedness：基础性，越高表示答案越基于提供的上下文
GroundTruth：真实值一致性，越高表示答案与标准答案越接近

开发者可以根据这些指标全面评估模型表现，并针对薄弱环节进行优化。

总结

本文详细介绍了在Trulens项目中使用虚拟应用进行模型评估的完整流程，包括环境设置、数据准备、反馈函数配置、评估执行以及结果获取与保存。特别强调了评估结果获取为空的解决方案，帮助开发者避免常见陷阱。通过这套方法，开发者可以高效地对AI模型进行多维度评估，为模型优化提供数据支持。

trulens

Evaluation and Tracking for LLM Experiments

项目地址：https://gitcode.com/gh_mirrors/tr/trulens

登录后查看全文

Trulens项目中使用虚拟应用进行反馈评估的实践指南

背景介绍

核心概念

虚拟应用(VirtualApp)

反馈函数(Feedback Functions)

实现步骤

1. 初始化环境

2. 准备评估数据

3. 配置反馈函数

4. 创建并运行虚拟评估

常见问题解决方案

评估结果获取为空的问题

结果保存最佳实践

评估结果解读

总结

热门内容推荐

最新内容推荐

项目优选

Trulens项目中使用虚拟应用进行反馈评估的实践指南

背景介绍

核心概念

虚拟应用(VirtualApp)

反馈函数(Feedback Functions)

实现步骤

1. 初始化环境

2. 准备评估数据

3. 配置反馈函数

4. 创建并运行虚拟评估

常见问题解决方案

评估结果获取为空的问题

结果保存最佳实践

评估结果解读

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选