【亲测免费】深度评估（DeepEval）：LLM评估框架安装与配置完全指南

2026-01-20 01:30:20作者：胡唯隽

项目基础介绍与编程语言

深度评估（DeepEval）是一个易于使用的、开源的大型语言模型（LLM）评价框架，它类似于Pytest，但专门用于单元测试LLM的输出结果。此项目旨在简化对语言模型输出的验证过程，提供多种评估指标，如G-Eval、hallucination检测、答案相关性等，并支持通过任意选择的LLM或本地运行的NLP模型进行评估。DeepEval采用Python作为主要开发语言。

关键技术和框架

Python: 项目的核心编程语言，利用其丰富的库和生态来实现评估逻辑。
Git: 版本控制工具，用于代码管理和协作。
pytest-like CLI: 提供类似Pytest的命令行界面，便于集成到CI/CD流程中。
自定义基类机制: 允许创建新指标，继承自DeepEval提供的基类。
集成Confident AI平台: 支持持续集成评估，数据隐私保护的API交互。

安装和配置步骤

准备工作

环境要求: 确保你的系统上已安装Python 3.6及以上版本。
虚拟环境: 推荐使用虚拟环境管理Python依赖，保持项目间的隔离。可以通过venv或conda来创建。

使用虚拟环境 (`venv`) 的快速设置：

python3 -m venv deepeval_venv
source deepeval_venv/bin/activate  # 对于Windows，使用 `.\deepeval_venv\Scripts\activate`

安装步骤

克隆仓库：

git clone https://github.com/confident-ai/deepeval.git
cd deepeval

安装依赖：在项目的根目录下执行以下命令来安装所有必要的依赖项。
```
pip install -U .
```
或者，如果项目内部有明确的requirements.txt文件，则可以使用：
```
pip install -r requirements.txt
```

配置与初步设置

创建账号（可选，推荐）：进入项目后，可通过命令行运行 deepeval login 并跟随指引创建Confident AI平台的账号。这有助于日后的测试结果追踪和分析。
环境变量：对于使用特定API服务，如OpenAI，需设置相应的API密钥：
```
export OPENAI_API_KEY="your_api_key_here"
```

写入第一个测试案例

编辑一个Python脚本，例如 test_example.py：

import pytest
from deepeval import assert_test
from deepeval.metrics import AnswerRelevancyMetric
from deepeval.test_case import LLMTestCase

def test_case_example():
    metric = AnswerRelevancyMetric(threshold=0.5)
    test_case = LLMTestCase(
        input="今天天气如何？",
        actual_output="今天晴朗，适合外出。",
        retrieval_context=[]  # 可以填充背景信息
    )
    assert_test(test_case, [metric])

if __name__ == "__main__":
    pytest.main(["-v", "test_example.py"])