大众点评爬虫终极配置教程：从零开始快速搭建数据采集环境

2026-02-06 05:41:29作者：史锋燃Gardner

大众点评爬虫是一款强大的数据采集工具，能够爬取大众点评全站数据并解决动态字体加密问题。本教程将为您提供完整的配置指南，帮助您快速搭建稳定的数据采集环境。

环境准备与前置条件

在开始配置之前，请确保您的系统满足以下要求：

系统环境要求：

操作系统：Windows/Linux/MacOS
Python版本：Python 3.6+
网络环境：稳定的网络连接

软件依赖：

lxml 4.6.2+
requests 2.23.0+
tqdm 4.46.1+
faker 5.6.5+
beautifulsoup4 4.6.0+
fontTools 4.22.0+
pymongo 3.11.3

核心配置步骤详解

第一步：获取项目代码

git clone https://gitcode.com/gh_mirrors/di/dianping_spider
cd dianping_spider

第二步：安装依赖包

使用以下命令一键安装所有必需依赖：

pip install -r requirements.txt

第三步：基础配置文件设置

修改 config.ini 文件中的关键参数：

[config]
use_cookie_pool = False
save_mode = mongo
requests_times = 1,2;3,5;10,50

[detail]
keyword = 自助餐
location_id = 8
need_pages = 5

[proxy]
use_proxy = False

主要配置参数说明：

参数类别	关键参数	说明	推荐值
基础配置	use_cookie_pool	是否使用Cookie池	False
基础配置	save_mode	数据保存方式	mongo
搜索配置	keyword	搜索关键词	自助餐
搜索配置	location_id	地区ID	8
代理配置	use_proxy	是否使用代理	False

第四步：Cookie配置

在 cookies.txt 文件中添加有效的Cookie信息：

fspop=test; cy=19; cye=dalian; _lxsdk_cuid=17a12f40183c8-079c5f4a6c5d68-4c3f2d73-1fa400-17a12f40183c8

高级功能配置

爬取策略配置

编辑 require.ini 文件来定制您的爬取需求：

[shop_phone]
need = False
need_detail = False

[shop_review]
need = False
need_detail = False
need_pages = 1

策略选择建议：

谨慎模式：所有参数设为False，适合新手使用
标准模式：开启评论爬取，获取基础数据
完整模式：开启所有功能，获取最详细数据

数据库配置

目前支持MongoDB数据库存储，在 config.ini 中配置：

mongo_path = mongodb://localhost:27017/

常见问题快速排查

问题1：依赖安装失败

症状：pip install 命令报错 解决方案：

pip install --upgrade pip
pip install lxml requests tqdm faker beautifulsoup4 fontTools pymongo

问题2：Cookie失效

症状：爬取进度停滞在0% 解决方案：

重新获取有效的Cookie
确保Cookie格式正确
检查网络连接

问题3：代理配置错误

症状：频繁被网站封禁 解决方案：

use_proxy = True
http_link = 您的代理链接

最佳实践建议

1. 请求频率控制

使用 requests_times 参数合理设置请求间隔：

requests_times = 1,2;3,5;10,50

这表示：每请求1次休息2秒，每3次休息5秒，每10次休息50秒

2. 数据保存优化

定期备份MongoDB数据
使用索引优化查询性能
设置数据清理策略

3. 监控与日志

启用日志记录功能
设置爬取进度监控
定期检查Cookie有效性

总结与进阶学习

通过本教程，您已经成功配置了大众点评爬虫工具。该工具能够有效应对大众点评的反爬机制，包括动态字体加密等技术挑战。

下一步学习建议：

深入了解Cookie池机制
学习代理IP轮换策略
掌握数据清洗与分析方法

大众点评爬虫作为一款专业的网络数据采集工具，为数据分析、市场研究等领域提供了强有力的支持。合理使用本工具，将为您的项目带来宝贵的数据资源。

dianping_spider

大众点评爬虫（全站可爬，解决动态字体加密，非OCR）。持续更新

项目地址：https://gitcode.com/gh_mirrors/di/dianping_spider

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.1 K

611

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

大众点评爬虫终极配置教程：从零开始快速搭建数据采集环境

环境准备与前置条件

核心配置步骤详解

第一步：获取项目代码

第二步：安装依赖包

第三步：基础配置文件设置

第四步：Cookie配置

高级功能配置

爬取策略配置

数据库配置

常见问题快速排查

问题1：依赖安装失败

问题2：Cookie失效

问题3：代理配置错误

最佳实践建议

1. 请求频率控制

2. 数据保存优化

3. 监控与日志

总结与进阶学习

热门内容推荐

最新内容推荐

项目优选

大众点评爬虫终极配置教程：从零开始快速搭建数据采集环境

环境准备与前置条件

核心配置步骤详解

第一步：获取项目代码

第二步：安装依赖包

第三步：基础配置文件设置

第四步：Cookie配置

高级功能配置

爬取策略配置

数据库配置

常见问题快速排查

问题1：依赖安装失败

问题2：Cookie失效

问题3：代理配置错误

最佳实践建议

1. 请求频率控制

2. 数据保存优化

3. 监控与日志

总结与进阶学习

相关内容推荐

热门内容推荐

最新内容推荐

项目优选