Crawlee-Python项目中如何直接添加请求链接而不使用选择器

2025-06-07 21:54:42作者：瞿蔚英Wynne

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Parsel, BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

在Crawlee-Python项目中，开发者经常需要从网页中提取链接并将这些链接加入爬取队列。虽然官方文档主要展示了通过CSS选择器提取链接的方式，但在实际开发中，我们有时已经通过其他方式获取了目标链接，这时就需要直接将这些链接加入队列而不必重复使用选择器提取。

核心方法解析

Crawlee-Python提供了两种直接添加请求链接的方式：

通过上下文对象添加：在任何爬取上下文中，都可以直接使用add_requests方法添加链接。这种方式特别适合在页面解析函数中使用，当你已经通过正则表达式或其他方式提取出链接时。
```
context.add_requests(['https://example.com/page1', 'https://example.com/page2'])
```
通过爬虫实例添加：如果你在爬虫类的方法中操作，也可以直接通过爬虫实例调用相同的方法。
```
crawler.add_requests(['https://example.com/page1', 'https://example.com/page2'])
```

方法优势与应用场景

这种直接添加链接的方式相比使用选择器有以下优势：

性能优化：避免了重复的DOM解析过程，特别是当链接已经通过其他方式提取时
灵活性：可以处理非标准HTML结构或JavaScript生成的链接
精确控制：能够对每个链接进行预处理后再加入队列

典型应用场景包括：

从API响应中获取的链接
通过正则表达式从文本中提取的链接
需要动态生成的链接（如分页URL）
从非HTML文档（如JSON、XML）中提取的链接

最佳实践建议

URL规范化：在添加链接前，建议对URL进行规范化处理，确保相对路径转换为绝对路径
去重处理：虽然Crawlee有内置去重机制，但对于大量链接建议先进行预处理
请求配置：可以通过字典形式为每个请求添加特定的元数据或配置

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Parsel, BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统