MCP Omnisearch 统一搜索工具架构解析与实现方案

2025-06-19 22:48:54作者：齐添朝

项目概述

MCP Omnisearch 是一个创新的统一搜索工具平台，旨在整合多种搜索服务、AI响应工具和内容处理能力，为开发者提供一站式的信息检索解决方案。该项目通过模块化架构设计，将不同功能的搜索工具进行标准化封装，使开发者能够通过统一接口访问各类搜索服务。

系统架构设计

核心架构图

系统采用分层架构设计，主要包含以下核心组件：

MCP Omnisearch 服务器：作为系统的核心枢纽，负责接收请求并分发到各个工具模块
工具管理中心：维护所有可用工具的元数据和功能描述
四大工具类别：
- 搜索工具（Search Tools）
- AI响应工具（AI Response Tools）
- 内容处理工具（Content Processing Tools）
- 增强工具（Enhancement Tools）

工具分类详解

1. 搜索工具（Search Tools）

Tavily Search：专注于事实性信息检索，提供强大的引用支持
Brave Search：注重隐私保护，擅长技术类主题搜索
Kagi Search：高质量搜索结果，广告影响最小化，专注于权威来源

2. AI响应工具（AI Response Tools）

Perplexity AI：结合实时网络搜索与高级语言模型（GPT-4 Omni, Claude 3），适合需要跨多源推理和综合的复杂查询
Kagi FastGPT：快速AI生成答案（典型启动时间900ms），带有引用，底层运行完整搜索以丰富答案

3. 内容处理工具（Content Processing Tools）

Jina AI Reader：将任何URL转换为干净、LLM友好的文本，支持自动图像标注和原生PDF处理
Kagi Universal Summarizer：即时摘要URL内容，支持网页、视频和播客（带字幕）
Firecrawl系列工具：提供从简单抓取到深度网站爬取的全套内容提取方案

4. 增强工具（Enhancement Tools）

Kagi Enrichment API：从专业索引（Teclis用于网页，TinyGem用于新闻）提供补充内容
Jina AI Grounding：基于网络知识的实时事实核查，通过声明验证减少幻觉

技术实现方案

1. 统一服务器接口设计

单一MCP服务器暴露多个搜索工具
尽可能使用通用参数结构
必要时支持特定于提供商的参数

2. 工具管理机制

管理所有搜索提供商并附带清晰详细的描述
突出每个提供商的特点和最佳使用场景
处理包含下划线的提供商名称（从右侧拆分）
工具命名模式：provider_name + "*" + action

3. 提供商实现策略

每个搜索提供商作为独立模块实现
共享公共功能的实用工具
跨提供商的一致错误处理

4. 配置管理

基于环境变量的API密钥管理
每个提供商的可配置默认值

工具描述策略

工具描述是系统高效工作的关键，每个工具都包含详细描述：

搜索工具描述：
- 提供商最擅长的领域
- 处理良好的查询类型
- 独特功能（如Jina AI的解析能力）
- 限制或约束
AI响应工具描述：
- 模型能力和特点
- 响应时间和处理方式
- 适合的查询复杂度
内容处理工具描述：
- 支持的内容类型
- 输出格式选项
- 处理深度和范围

项目目录结构

src/
├── index.ts         # 主服务器入口
├── config/          # 配置管理
├── providers/       # 所有提供商实现
│   ├── search/      # 搜索提供商
│   ├── ai_response/ # AI响应提供商
│   ├── processing/  # 内容处理提供商
│   └── enhancement/ # 增强工具
├── common/          # 共享工具
└── server/          # 核心服务器功能

最佳实践指南

错误处理：
- 跨所有提供商实现一致的错误处理
- 提供清晰的错误消息帮助识别问题来源
- 在适当的地方包含回退机制
参数标准化：
- 跨提供商使用一致的参数名称
- 标准化常见参数（如统一使用query而不是混合术语）
- 清楚记录任何提供商特定的参数
日志和监控：
- 实现全面的日志记录以进行调试
- 跟踪使用模式和性能指标
- 监控API速率限制和配额
代码组织：
- 保持提供商实现的隔离
- 通过common/目录共享公共实用程序
- 在所有模块中保持一致的编码风格

实施状态与路线图

已完成阶段

核心结构搭建：
- 统一MCP服务器框架
- 提供商模块化结构
- 配置管理系统
提供商集成：
- 所有搜索提供商实现
- 全面的工具描述
- 错误处理和回退机制

进行中阶段

测试与优化：

使用各种查询类型进行系统测试
基于AI选择行为优化工具描述
添加任何缺失的提供商特定参数

技术实现细节

搜索操作符支持

系统已实现以下常见搜索操作符：

基础操作符：
- site: (域名过滤)
- -site: (域名排除)
- filetype: (文档类型过滤)
高级操作符：
- intitle: (标题搜索)
- inurl: (URL搜索)
- before:/after: (日期过滤)
- "exact phrase" (精确匹配)
- AND/OR/NOT (布尔运算符)