Spider-RS v2.37.120 版本发布：强化浏览器指纹模拟与爬虫能力

2025-06-27 01:15:47作者：胡唯隽

The fastest web crawler written in Rust

项目地址：https://gitcode.com/gh_mirrors/spide/spider

Spider-RS 是一个基于 Rust 语言开发的高性能网络爬虫框架，专注于提供现代化的网页抓取解决方案。该项目特别强调对现代 Web 技术的支持，包括 JavaScript 渲染、反爬虫机制绕过等高级功能。

核心更新内容

浏览器指纹模拟增强

本次更新对浏览器指纹模拟功能进行了全面优化，主要改进包括：

硬件并发数模拟：新增了 navigator.hardwareConcurrency 属性的模拟功能，可以更真实地模拟用户设备的 CPU 核心数。
设备像素比优化：修复了 macOS 设备默认像素比的问题，确保在不同操作系统下都能呈现合理的显示效果。
WebGL 与 GPU 模拟：改进了 WebGL 工作线程中对 GPU 信息的模拟，使得基于 WebGL 的指纹检测更难识别出爬虫。
用户代理数据接口：完善了 userAgentData.getHighEntropyValues 方法的实现，这是现代浏览器提供的新 API，用于获取更详细的用户代理信息。
插件列表模拟：修复了浏览器插件列表的模拟问题，包括 toJSON 方法的正确处理，使得插件相关的指纹更难被检测为异常。

爬虫功能改进

页面大小控制：新增了 max_page_bytes 参数，允许开发者限制单个页面下载的最大字节数，防止处理过大的页面导致内存问题。
滚动功能：为 Chrome 爬虫添加了页面滚动方法，可以模拟真实用户的滚动行为。
屏幕截图支持：新增了屏幕截图功能（screencast），可用于调试或需要可视化页面状态的场景。
服务工作者默认启用：现在默认启用 Service Workers 支持，更好地模拟现代浏览器的行为。

稳定性修复

内存安全：修复了在高级抓取操作中可能出现的越界访问问题，提高了程序的稳定性。
引用视图支持：允许引用视图（reference viewport）配置，提供更灵活的页面渲染控制。
请求头修复：修正了 Referer 头的默认设置问题，确保请求头更加符合常规浏览器行为。

技术意义

这些更新使得 Spider-RS 在对抗现代网站反爬虫机制方面更加强大。特别是对浏览器指纹的精细模拟，让爬虫行为更难被网站识别为自动化程序。对于需要处理复杂 JavaScript 网站或对抗严格反爬措施的开发者来说，这些改进提供了更强大的工具集。

新增的页面大小控制和屏幕截图等功能，也为爬虫的调试和运行监控提供了更多便利。这些改进共同提升了 Spider-RS 作为现代化爬虫框架的完整性和实用性。

The fastest web crawler written in Rust

项目地址：https://gitcode.com/gh_mirrors/spide/spider

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统