deep_research_bench 的项目扩展与二次开发

2025-06-20 19:43:03作者：邵娇湘

项目的基础介绍

deep_research_bench 是一个针对深度研究代理（Deep Research Agents，简称 DRAs）的综合评估基准。该项目的目的是填补在系统评估 DRAs 方面的空白，为研究社区提供一个可靠的测试平台。项目包含了 100 个由领域专家精心设计的博士级别研究任务，覆盖了 22 个不同的领域，如科学和技术、金融和商业、软件、艺术和设计等。

项目的核心功能

deep_research_bench 的核心功能是提供两种互补的评估方法：RACE（基于参考的适应性标准驱动评估）和 FACT（事实丰富度和引用可信度框架）。RACE 方法用于评估报告生成的质量，而 FACT 方法用于评估信息检索和事实依据的能力。

项目使用了哪些框架或库？

该项目使用了以下框架或库：

Python 3.9+：项目的基础编程语言环境。
Gemini API：用于 LLM 评估的 API。
Jina API：用于网页抓取的 API。
其他可能包括但不限于：用于数据处理、模型训练和评估的各种 Python 库。

项目的代码目录及介绍

项目的代码目录结构如下：

deep_research_bench/
├── data/
│   ├── criteria_data/      # 评估标准数据
│   ├── prompt_data/
│   │   └── query.jsonl     # 100 个基准查询任务
│   └── test_data/
│       ├── cleaned_data/   # 清洁的文章数据
│       └── raw_data/       # 模型输出结果
├── prompt/                 # 提示模板
├── utils/                  # 实用函数
├── deepresearch_bench_race.py  # RACE 评估脚本
├── run_benchmark.sh        # 运行脚本来添加模型名称
└── requirements.txt        # 依赖项