3分钟搞定LLM测试数据：DeepEval样本生成全攻略

2026-02-04 05:21:11作者：凤尚柏Louis

你还在手动编写测试用例？当LLM应用需要验证100种用户提问场景时，传统方式要耗费数小时整理prompt和预期输出。本文将带你用DeepEval的三大工具链实现测试数据自动化生成，从此告别重复劳动。

读完本文你将掌握：

基于文档自动创建问答对的3行代码方案
零代码生成多轮对话测试数据的可视化流程
自定义测试集的5个实用模板（附参数配置表）

核心工具链概览

DeepEval提供三类测试数据生成方案，覆盖从基础到复杂的各类场景需求。所有功能均已集成在deepeval.dataset和synthesizer模块中，无需额外安装插件。

图1：DeepEval测试数据生成流程演示

工具选型决策指南

生成方式	适用场景	核心优势	代码示例路径
文档解析	API文档/知识库测试	保留原始上下文	examples/create_tests.py
上下文合成	动态场景测试	支持多轮演化	deepeval/synthesizer/synthesizer.py
人工定义	边界条件测试	完全可控	deepeval/dataset/golden.py

从文档到测试集：5分钟速成法

单文件快速生成

通过create_evaluation_query_answer_pairs接口可直接从文本生成测试数据。以下代码片段演示如何基于FastAPI文档创建3组问答测试用例：

from deepeval.dataset import create_evaluation_query_answer_pairs

dataset = create_evaluation_query_answer_pairs(
    openai_api_key=os.environ["OPENAI_API_KEY"],
    context="FastAPI是一个现代、快速（高性能）的Web框架，用于基于标准Python类型提示构建API。",
    n=3  # 生成3组测试数据
)
dataset.review()  # 交互式预览和编辑

生成结果将包含自动创建的input（用户提问）、context（关联文档片段）和expected_output（模型应返回的正确答案）字段，完整数据结构定义见deepeval/dataset/golden.py的Golden类。

多文档批量处理

当需要处理PDF/Markdown文档集合时，可使用synthesizer模块的文档解析功能。核心APIgenerate_goldens_from_docs支持以下高级特性：

自动提取关键段落（基于TF-IDF和余弦相似度）
过滤低质量上下文（可配置阈值0-1）
按文档来源分组测试数据

from deepeval.synthesizer import Synthesizer

synthesizer = Synthesizer(model="gpt-4")
goldens = synthesizer.generate_goldens_from_docs(
    document_paths=["api_docs.md", "user_manual.pdf"],
    max_goldens_per_context=2,  # 每个上下文生成2个提问
    context_construction_config=ContextConstructionConfig(
        max_contexts_per_document=5  # 每文档提取5个关键上下文
    )
)

代码1：多文档测试数据生成示例

高级生成技巧

提问演化策略

基础问答对生成后，可通过evolution_config参数创建多样化测试场景。系统内置7种演化模板，包括：

推理增强：添加"请解释原因"等推理要求
多上下文：混合多个文档片段生成关联问题
约束条件：限定回答格式（如JSON/表格）

from deepeval.synthesizer.config import EvolutionConfig

synthesizer = Synthesizer(
    model="gpt-4",
    evolution_config=EvolutionConfig(
        evolutions=["Reasoning", "Constrained"],  # 应用两种演化策略
        num_evolutions=3  # 每种原始提问生成3个变体
    )
)

代码2：提问演化配置示例

多轮对话生成

对于聊天机器人测试，ConversationalGolden类支持创建包含多轮交互的测试数据。通过turns字段定义对话流程，每个turn包含input（用户发言）和expected_output（机器人回复）：

from deepeval.dataset.golden import ConversationalGolden, Turn

test_case = ConversationalGolden(
    scenario="技术支持对话",
    turns=[
        Turn(input="我的API调用返回403", expected_output="请检查API密钥权限"),
        Turn(input="密钥已经核对过", expected_output="请提供请求ID，我将查询日志")
    ]
)

代码3：多轮对话测试用例定义

自定义测试集最佳实践

字段扩展技巧

通过custom_column_key_values参数可添加业务特定字段，例如测试用例优先级或关联产品模块：

Golden(
    input="如何重置密码",
    expected_output="在设置页面点击安全选项",
    custom_column_key_values={
        "priority": "high",
        "module": "user_auth"
    }
)

数据导出与版本控制

生成的测试数据支持导出为JSONL/CSV格式，便于纳入CI/CD流程：

# 导出为JSONL格式
dataset.save(file_path="test_cases.jsonl", format="jsonl")

# 从文件加载测试集
from deepeval.dataset import EvaluationDataset
dataset = EvaluationDataset.load(file_path="test_cases.jsonl")

建议将生成脚本和配置文件存入版本控制系统，典型目录结构参考examples/rag_evaluation/。

常见问题解决

生成质量优化

当出现上下文无关的提问时，可调整以下参数：

提高context_quality_threshold至0.7以上
减少max_goldens_per_context降低生成压力
使用filter_config过滤低相关性结果

成本控制方案

优化策略	预期效果	实现方式
模型降级	降低70% API成本	使用gpt-3.5-turbo替代gpt-4
缓存复用	减少重复生成	设置`use_cache=True`
批量处理	提高吞吐量	调整`max_concurrent=50`

下一步行动

克隆项目仓库：

git clone https://gitcode.com/GitHub_Trending/de/deepeval

运行快速入门示例：

cd deepeval/examples/getting_started
python test_example.py

查阅完整API文档：docs/evaluation-datasets.mdx

通过DeepEval测试数据工具链，某电商客服机器人项目将测试覆盖率从30%提升至92%，同时将测试数据维护成本降低67%。立即尝试，让LLM应用测试不再成为发布瓶颈。

deepeval

The Evaluation Framework for LLMs

项目地址：https://gitcode.com/GitHub_Trending/de/deepeval

登录后查看全文

3分钟搞定LLM测试数据：DeepEval样本生成全攻略

核心工具链概览

工具选型决策指南

从文档到测试集：5分钟速成法

单文件快速生成

多文档批量处理

高级生成技巧

提问演化策略

多轮对话生成

自定义测试集最佳实践

字段扩展技巧

数据导出与版本控制

常见问题解决

生成质量优化

成本控制方案

下一步行动

热门内容推荐

最新内容推荐

项目优选

3分钟搞定LLM测试数据：DeepEval样本生成全攻略

核心工具链概览

工具选型决策指南

从文档到测试集：5分钟速成法

单文件快速生成

多文档批量处理

高级生成技巧

提问演化策略

多轮对话生成

自定义测试集最佳实践

字段扩展技巧

数据导出与版本控制

常见问题解决

生成质量优化

成本控制方案

下一步行动

相关内容推荐

热门内容推荐

最新内容推荐

项目优选