深度搜索器(DeepSearcher)项目教程
2026-01-30 04:38:21作者:蔡丛锟
1. 项目目录结构及介绍
深度搜索器(DeepSearcher)项目的目录结构如下:
deep-searcher/ # 项目根目录
├── .github/ # GitHub配置文件目录
├── .vscode/ # Visual Studio Code配置文件目录
├── assets/ # 资源文件目录
│ └── pic/ # 图片资源子目录
├── deepsearcher/ # 深度搜索器核心代码目录
├── evaluation/ # 评估模块目录
├── examples/ # 示例代码目录
├── tests/ # 测试模块目录
├── .gitignore # Git忽略文件配置
├── CONTRIBUTING.md # 贡献指南文件
├── LICENSE.txt # 许可证文件
├── MAINTAINERS # 项目维护者信息
├── OWNERS # 所有者信息
├── OWNERS_ALIASES # 所有者别名信息
├── README.md # 项目说明文件
├── config.yaml # 配置文件
├── main.py # 项目启动文件
├── pyproject.toml # Python项目配置文件
├── requirements-dev.txt # 开发环境依赖文件
├── requirements.txt # 生产环境依赖文件
└── setup.py # 项目安装配置文件
.github/:包含GitHub的配置文件,如工作流等。.vscode/:包含Visual Studio Code的配置文件。assets/:存放项目相关的资源文件,如图片等。deepsearcher/:包含深度搜索器的核心代码。evaluation/:评估模块,用于对搜索结果进行评估。examples/:提供了一些使用深度搜索器的示例代码。tests/:包含项目的测试代码。.gitignore:配置Git需要忽略的文件和目录。CONTRIBUTING.md:提供给想要为项目贡献代码的人指南。LICENSE.txt:项目的许可证信息。MAINTAINERS、OWNERS、OWNERS_ALIASES:记录项目的维护者和所有者相关信息。README.md:项目说明文件,包含项目的简介和基本使用方法。config.yaml:项目的配置文件,用于配置搜索器参数。main.py:项目的启动文件,用于启动深度搜索服务。pyproject.toml:Python项目的配置文件,用于定义项目信息和依赖。requirements-dev.txt:开发环境下的依赖文件。requirements.txt:生产环境下的依赖文件。setup.py:用于配置项目安装的脚本。
2. 项目的启动文件介绍
项目的启动文件是main.py,它是运行深度搜索服务的入口点。在这个文件中,通常会包含以下内容:
- 配置对象的初始化。
- 数据的加载,包括本地文件和(可选的)网页爬取。
- 搜索服务的启动,等待用户查询并返回搜索结果。
# main.py 示例代码
from deepsearcher.configuration import Configuration, init_config
from deepsearcher.online_query import query
# 初始化配置
config = Configuration()
init_config(config=config)
# 加载本地数据
from deepsearcher.offline_loading import load_from_local_files
load_from_local_files(paths_or_directory='your_local_path')
# 可选:加载网络数据
from deepsearcher.offline_loading import load_from_website
load_from_website(urls='website_url')
# 运行搜索
result = query("Write a report about xxx.")
3. 项目的配置文件介绍
项目的配置文件是config.yaml,它用于定义和控制项目的运行参数。配置文件可以包含以下内容:
- 搜索引擎配置,如使用的LLM模型(例如OpenAI、DeepSeek等)和向量数据库。
- 数据源配置,如本地文件路径和网络爬取的URL。
- 其他高级设置,如日志记录、超时设置等。
配置文件通常使用YAML格式编写,以下是config.yaml的一个示例:
# config.yaml 示例配置
provider:
llm:
name: OpenAI
args:
model: o1-mini
embedding:
name: OpenAIEmbedding
args:
model: text-embedding-ada-002
在这个配置文件中,我们定义了LLM提供者和嵌入模型提供者及其对应的模型。这些配置将在项目运行时被读取,用于初始化相关的服务。
登录后查看全文
热门项目推荐
相关项目推荐
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
LongCat-AudioDiT-1BLongCat-AudioDiT 是一款基于扩散模型的文本转语音(TTS)模型,代表了当前该领域的最高水平(SOTA),它直接在波形潜空间中进行操作。00- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
HY-Embodied-0.5这是一套专为现实世界具身智能打造的基础模型。该系列模型采用创新的混合Transformer(Mixture-of-Transformers, MoT) 架构,通过潜在令牌实现模态特异性计算,显著提升了细粒度感知能力。Jinja00
FreeSql功能强大的对象关系映射(O/RM)组件,支持 .NET Core 2.1+、.NET Framework 4.0+、Xamarin 以及 AOT。C#00
热门内容推荐
最新内容推荐
Tauri/Pake 构建 Windows 桌面包卡死?彻底告别 WiX 与 NSIS 下载超时的终极指南智能歌词同步:AI驱动的音频字幕制作解决方案Steam Deck Windows驱动完全攻略:彻底解决手柄兼容性问题的5大方案猫抓:让网页视频下载从此告别技术门槛Blender贝塞尔曲线处理插件:解决复杂曲线编辑难题的专业工具集多智能体评估一站式解决方案:CAMEL基准测试框架全解析三步搭建AI视频解说平台:NarratoAI容器化部署指南B站视频下载工具:从4K画质到批量处理的完整解决方案Shutter Encoder:面向全层级用户的视频压缩创新方法解放双手!3大维度解析i茅台智能预约系统
项目优选
收起
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
654
4.25 K
deepin linux kernel
C
27
14
Ascend Extension for PyTorch
Python
498
604
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
390
282
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
938
858
Oohos_react_native
React Native鸿蒙化仓库
JavaScript
333
389
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.53 K
889
暂无简介
Dart
902
217
AscendNPU-IR是基于MLIR(Multi-Level Intermediate Representation)构建的,面向昇腾亲和算子编译时使用的中间表示,提供昇腾完备表达能力,通过编译优化提升昇腾AI处理器计算效率,支持通过生态框架使能昇腾AI处理器与深度调优
C++
124
195
昇腾LLM分布式训练框架
Python
142
168