DeepEval工具正确性指标测试中的工具使用记录问题解析

2025-06-04 09:54:35作者：虞亚竹Luna

The LLM Evaluation Framework

项目地址：https://gitcode.com/GitHub_Trending/de/deepeval

在基于DeepEval框架进行大语言模型(LLM)功能测试时，开发人员可能会遇到一个典型问题：当使用ToolCorrectnessMetric指标进行测试时，虽然测试用例中正确传递了tools_used参数，且测试能够通过，但在DeepEval的Web界面中却无法显示实际使用的工具记录。这个问题在Windows 11系统搭配Firefox浏览器环境下尤为明显。

问题的核心表现是：测试代码中明明通过LLMTestCase正确设置了tools_used参数（如示例中的['get_syllabus']），控制台也能正确打印工具使用记录，但最终的测试报告Web界面却缺失了这一关键信息。这会给开发者的测试结果验证带来不便。

从技术实现角度看，这个问题涉及DeepEval框架前后端的数据传递机制。当使用ToolCorrectnessMetric时，框架需要：

正确接收并处理测试用例中的tools_used参数
将工具使用信息与测试结果关联存储
在Web界面中正确渲染这些信息

问题的解决方案已经由项目维护者在v1.1.4版本中提供。升级到最新版本后，工具使用记录应该能够正常显示在Web界面中。对于开发者来说，这是一个典型的框架兼容性问题，提醒我们在使用开源测试框架时需要注意：

及时更新到最新稳定版本
关注框架的issue跟踪系统
对于关键测试指标，建议在本地先进行结果验证

这个案例也展示了开源社区协作的优势：用户发现问题后及时反馈，维护者快速响应并修复，最终提升了整个框架的稳定性和可用性。对于从事LLM测试的开发者而言，理解这类问题的解决过程有助于更好地使用DeepEval等测试框架。

在实际开发中，类似的工具正确性测试对于验证LLM是否按预期调用特定功能非常重要。它能确保模型不仅产生正确的输出，还通过正确的途径（工具调用）获得这些结果。这也是DeepEval这类专业测试框架的价值所在。

The LLM Evaluation Framework

项目地址：https://gitcode.com/GitHub_Trending/de/deepeval

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

deepin linux kernel

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

flutter_flutter

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统