深度搜索器（DeepSearcher）项目教程

2026-01-30 04:38:21作者：蔡丛锟

1. 项目目录结构及介绍

深度搜索器（DeepSearcher）项目的目录结构如下：

deep-searcher/                  # 项目根目录
├── .github/                     # GitHub配置文件目录
├── .vscode/                     # Visual Studio Code配置文件目录
├── assets/                      # 资源文件目录
│   └── pic/                     # 图片资源子目录
├── deepsearcher/                # 深度搜索器核心代码目录
├── evaluation/                  # 评估模块目录
├── examples/                    # 示例代码目录
├── tests/                       # 测试模块目录
├── .gitignore                   # Git忽略文件配置
├── CONTRIBUTING.md              # 贡献指南文件
├── LICENSE.txt                  # 许可证文件
├── MAINTAINERS                  # 项目维护者信息
├── OWNERS                       # 所有者信息
├── OWNERS_ALIASES               # 所有者别名信息
├── README.md                    # 项目说明文件
├── config.yaml                  # 配置文件
├── main.py                      # 项目启动文件
├── pyproject.toml               # Python项目配置文件
├── requirements-dev.txt         # 开发环境依赖文件
├── requirements.txt             # 生产环境依赖文件
└── setup.py                     # 项目安装配置文件

.github/：包含GitHub的配置文件，如工作流等。
.vscode/：包含Visual Studio Code的配置文件。
assets/：存放项目相关的资源文件，如图片等。
deepsearcher/：包含深度搜索器的核心代码。
evaluation/：评估模块，用于对搜索结果进行评估。
examples/：提供了一些使用深度搜索器的示例代码。
tests/：包含项目的测试代码。
.gitignore：配置Git需要忽略的文件和目录。
CONTRIBUTING.md：提供给想要为项目贡献代码的人指南。
LICENSE.txt：项目的许可证信息。
MAINTAINERS、OWNERS、OWNERS_ALIASES：记录项目的维护者和所有者相关信息。
README.md：项目说明文件，包含项目的简介和基本使用方法。
config.yaml：项目的配置文件，用于配置搜索器参数。
main.py：项目的启动文件，用于启动深度搜索服务。
pyproject.toml：Python项目的配置文件，用于定义项目信息和依赖。
requirements-dev.txt：开发环境下的依赖文件。
requirements.txt：生产环境下的依赖文件。
setup.py：用于配置项目安装的脚本。

2. 项目的启动文件介绍

项目的启动文件是main.py，它是运行深度搜索服务的入口点。在这个文件中，通常会包含以下内容：

配置对象的初始化。
数据的加载，包括本地文件和（可选的）网页爬取。
搜索服务的启动，等待用户查询并返回搜索结果。

# main.py 示例代码
from deepsearcher.configuration import Configuration, init_config
from deepsearcher.online_query import query

# 初始化配置
config = Configuration()
init_config(config=config)

# 加载本地数据
from deepsearcher.offline_loading import load_from_local_files
load_from_local_files(paths_or_directory='your_local_path')

# 可选：加载网络数据
from deepsearcher.offline_loading import load_from_website
load_from_website(urls='website_url')

# 运行搜索
result = query("Write a report about xxx.")

3. 项目的配置文件介绍

项目的配置文件是config.yaml，它用于定义和控制项目的运行参数。配置文件可以包含以下内容：

搜索引擎配置，如使用的LLM模型（例如OpenAI、DeepSeek等）和向量数据库。
数据源配置，如本地文件路径和网络爬取的URL。
其他高级设置，如日志记录、超时设置等。

配置文件通常使用YAML格式编写，以下是config.yaml的一个示例：

# config.yaml 示例配置
provider:
  llm:
    name: OpenAI
    args:
      model: o1-mini
  embedding:
    name: OpenAIEmbedding
    args:
      model: text-embedding-ada-002