LaVague项目中的评估器可视化功能优化方案

2025-06-04 17:25:46作者：段琳惟

在LaVague项目中，Evaluator.compare方法是一个重要的性能评估工具，它能够直观地展示检索器或语言模型在召回率（recall）、精确率（precision）和响应时间（time）三个维度的表现对比。然而，当前实现存在一个明显的局限性——用户无法选择性地查看特定指标，这在实际应用场景中可能会带来不便。

当前实现分析

现有的Evaluator.compare方法会固定生成包含三个指标的对比图表。其核心逻辑是创建一个DataFrame，其中包含三个固定列：

df["precision"] = [df["precision_retriever"].mean() for df in results.values()]
df["recall"] = [df["recall_retriever"].mean() for df in results.values()]
df["time"] = [df["retrieval_time"].mean() for df in results.values()]
df["name"] = list(results.keys())

这种设计虽然简单直接，但缺乏灵活性。在某些场景下，用户可能只关心特定指标的表现，或者希望分开查看不同指标的对比结果。

功能优化方案

为了解决这个问题，我们提出了一个优化方案：为compare方法添加一个可选的metrics参数，允许用户自定义需要展示的指标。具体实现要点包括：

参数设计：新增一个可选参数metrics，类型为字符串列表，默认值为["precision", "recall", "time"]，保持向后兼容性。

数据处理逻辑：根据用户传入的metrics参数，动态构建DataFrame的列。例如：

if "precision" in metrics:
    df["precision"] = [df["precision_retriever"].mean() for df in results.values()]

输入验证：需要验证用户传入的metrics参数是否合法，只允许包含"precision"、"recall"和"time"三种值。
名称列保留：无论用户选择哪些指标，"name"列必须始终包含在DataFrame中，这是图表展示的基础。

应用场景示例

优化后的方法使用示例如下：

# 只查看召回率和精确率
retriever_evaluator.compare(
    metrics=["recall", "precision"],
    results={"default": default_ret, "my_custom_retriever": custom_ret}
)

# 只查看响应时间
retriever_evaluator.compare(
    metrics=["time"],
    results={"default": default_ret, "my_custom_retriever": custom_ret}
)