Firecrawl项目v1.6.0版本发布：LLMs.txt API与深度研究API重磅升级

2025-05-31 12:35:52作者：段琳惟

Firecrawl是一个专注于网页内容抓取和处理的强大工具，它能够将网页内容转化为结构化的数据，为AI训练和分析提供高质量的输入。最新发布的v1.6.0版本带来了两项突破性功能：LLMs.txt API和深度研究API，进一步提升了项目的实用性和智能化水平。

核心功能升级

LLMs.txt API：网页内容标准化处理

新引入的LLMs.txt API功能可以将任意网站转换为适合大型语言模型(LLM)使用的标准化文本文件。这项功能会生成两种文件格式：

llms.txt：包含网页的核心内容，去除了无关元素
llms-full.txt：包含更完整的网页信息

这个功能特别适合需要大量网页数据来训练自定义语言模型的开发者，它解决了原始网页数据杂乱无章、格式不统一的问题，大大提高了数据预处理效率。

深度研究API（Alpha版）

深度研究API代表了Firecrawl在智能化方向的重要突破。用户只需提供一个研究主题，API就能自动完成以下工作：

智能网络探索：自动发现和收集相关网页
信息综合：将分散的信息整合成系统化的见解
深度分析：提供超出简单抓取的分析结果

这个功能特别适合市场研究、学术调研等需要深度信息挖掘的场景，目前处于Alpha测试阶段。

技术架构改进

多模型支持与性能优化

AI-SDK迁移：项目已迁移至AI-SDK框架，为未来功能扩展打下基础
多模型支持：新增Claude 3.7和GPT-4.5网页爬虫实现，并提供了Groq Web Crawler示例
字符编码处理：改进了字符集检测和重新解码机制，解决了特殊编码网页的抓取问题
跨域重定向：优化了跨域重定向的处理逻辑，提高了复杂网站的抓取成功率

系统稳定性提升

令牌限制修复：解决了提取内容时的令牌限制问题
包含/排除规则：优化了includes/excludes参数的处理逻辑
错误处理：改进了crawl-status行为，增强了错误处理能力

部署与运维增强

自托管优化：支持任何OpenAI兼容API和Ollama环境变量
数据库性能：引入Supabase读副本路由，提高了数据库查询效率
计费系统：实现了批量计费功能，优化了自动充值邮件通知

开发者生态

项目新增了Firecrawl MCP服务器，为Cursor、Windsurf、Claude等工具提供了增强的网页提取能力。同时，社区贡献显著增加，多位新开发者加入了项目贡献。

总结

Firecrawl v1.6.0通过引入LLMs.txt API和深度研究API，将网页内容处理提升到了新的水平。这些改进不仅增强了核心功能，也为AI开发者提供了更强大的工具链。项目的持续优化表明其正朝着更智能、更稳定的方向发展，值得开发者关注和采用。

firecrawl

The API to search, scrape, and interact with the web at scale. 🔥

项目地址：https://gitcode.com/GitHub_Trending/fi/firecrawl

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

Python

2.25 K

677

Firecrawl项目v1.6.0版本发布：LLMs.txt API与深度研究API重磅升级

核心功能升级

LLMs.txt API：网页内容标准化处理

深度研究API（Alpha版）

技术架构改进

多模型支持与性能优化

系统稳定性提升

部署与运维增强

开发者生态

总结

热门内容推荐

最新内容推荐

项目优选

Firecrawl项目v1.6.0版本发布：LLMs.txt API与深度研究API重磅升级

核心功能升级

LLMs.txt API：网页内容标准化处理

深度研究API（Alpha版）

技术架构改进

多模型支持与性能优化

系统稳定性提升

部署与运维增强

开发者生态

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选