Botasaurus项目在VPS上运行Chrome的解决方案

2025-07-07 00:52:47作者：明树来

问题背景

在使用Botasaurus项目进行网页爬取时，许多开发者在VPS（虚拟专用服务器）上运行会遇到Chrome启动失败的问题。特别是在Ubuntu 22.04等Linux服务器环境中，默认配置可能导致Chrome浏览器无法正常启动。

错误现象

当尝试在VPS上运行Botasaurus的简单示例脚本时，系统会抛出"session not created: Chrome failed to start"错误，具体表现为：

DevToolsActivePort文件不存在
Chrome进程意外退出
ChromeDriver误判Chrome已崩溃

根本原因

这个问题的根源在于Linux服务器环境下的Chrome浏览器运行需要特殊配置：

服务器通常没有图形界面，而Chrome默认需要某些GUI组件
服务器共享内存(/dev/shm)可能配置不足
Chrome的沙箱安全机制在无特权容器中无法正常工作

解决方案

通过向Chrome添加特定的启动参数可以解决这个问题。在Botasaurus项目中，我们可以使用add_arguments回调函数来配置这些参数：

from botasaurus import *

def configure_chrome_options(data, options):
    options.add_argument('--disable-dev-shm-usage')  # 禁用/dev/shm使用
    options.add_argument('--no-sandbox')           # 禁用沙箱模式

@browser(headless=True, add_arguments=configure_chrome_options)
def scrape_website(driver: AntiDetectDriver, data):
    driver.get("https://example.com")
    return {"content": driver.text("body")}

if __name__ == "__main__":
    scrape_website()

参数解释

--disable-dev-shm-usage:
- 禁用/dev/shm的使用，改用/tmp
- 解决共享内存空间不足的问题
- 特别适用于Docker容器和小内存VPS
--no-sandbox:
- 禁用Chrome的沙箱安全功能
- 在无特权环境中必须启用
- 注意这会降低安全性，仅在受控环境中使用