从零开始使用Midscene.js:AI驱动的浏览器自动化工具
Midscene.js是一款革命性的开源浏览器自动化工具,它让AI成为你的浏览器操作员。通过自然语言描述任务需求,Midscene.js能够自动执行数据提取、页面验证等复杂浏览器操作,无需编写代码即可实现自动化测试和数据抓取。无论是技术新手还是专业开发者,都能快速上手这款强大工具。
环境准备清单
在开始安装Midscene.js之前,请确保你的系统满足以下要求:
- Node.js环境:需要安装Node.js和npm包管理器
- Git工具:用于克隆项目代码库
- 现代浏览器:推荐使用Chrome或Edge最新版
⚠️ 注意:请确保Node.js版本不低于v16.0.0,旧版本可能导致依赖安装失败
项目获取与安装步骤
1. 克隆项目代码库
打开终端,执行以下命令克隆项目到本地:
git clone https://gitcode.com/GitHub_Trending/mid/midscene
cd midscene
2. 安装项目依赖
项目使用pnpm作为包管理器,执行以下命令安装所有依赖:
npm install
💡 提示:如果安装过程中出现网络问题,可以尝试使用国内npm镜像:
npm install --registry=https://registry.npm.taobao.org
3. 项目结构概览
成功安装后,你会看到以下关键目录结构:
- apps/:包含各平台应用,如Chrome扩展、Web界面等
- packages/:核心功能模块,如AI模型集成、设备控制等
- scripts/:辅助脚本和工具
- docs/:项目文档和使用指南
一键启动指南
启动开发服务器
在项目根目录执行以下命令启动开发服务器:
npm run start
启动成功后,你可以通过浏览器访问http://localhost:3000打开Midscene.js的Playground界面。
图1:Midscene.js Playground界面展示,左侧为命令输入区,右侧为浏览器自动化操作预览
基本使用流程
- 在左侧"Prompt"输入框中用自然语言描述你的需求,例如:"点击搜索框并输入'耳机'"
- 点击"Run"按钮执行自动化操作
- 在右侧面板查看操作结果和浏览器实时状态
核心功能体验
自然语言驱动
Midscene.js最强大的功能是支持自然语言指令。你无需学习复杂的API,只需用日常语言描述想要完成的操作。系统会自动分析你的需求并转化为浏览器操作。
YAML脚本自动化
对于需要重复执行的任务,你可以创建YAML脚本文件。项目提供了丰富的YAML示例,位于packages/cli/tests/midscene_scripts/目录下。
Chrome扩展支持
项目提供了Chrome扩展,让浏览器自动化更加便捷。扩展源码位于apps/chrome-extension/目录,你可以按照以下步骤安装:
- 构建扩展:
cd apps/chrome-extension && npm run build - 在Chrome浏览器中打开
chrome://extensions/ - 启用"开发者模式"
- 点击"加载已解压的扩展程序",选择构建后的
dist目录
常见问题解决
依赖安装失败
如果npm install命令失败,请尝试:
- 更新npm:
npm install -g npm@latest - 清除npm缓存:
npm cache clean --force - 重新安装依赖:
npm install
服务启动后无法访问
- 检查端口是否被占用:
netstat -tuln | grep 3000 - 尝试修改端口:
npm run start -- --port 4000
AI功能无法使用
确保你已正确配置AI模型相关参数,配置文件位于packages/core/src/ai-model/目录。
进阶使用建议
自定义自动化脚本
你可以在packages/cli/tests/multi_yaml_scripts/目录下找到多文件YAML脚本示例,学习如何组合多个操作步骤。
扩展开发
如果需要扩展Midscene.js功能,可以参考packages/playground/src/adapters/目录下的适配器代码,了解如何集成新的浏览器或设备。
总结
Midscene.js通过AI技术彻底改变了浏览器自动化的使用方式,让复杂的自动化任务变得简单直观。无论是日常网页操作自动化,还是专业的测试场景,Midscene.js都能大幅提升你的工作效率。现在就开始探索这个强大工具,体验AI驱动的浏览器自动化吧!
更多详细文档请参考项目中的apps/site/docs/目录,包含完整的API参考和高级使用指南。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0144- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
MiniCPM-V-4.6这是 MiniCPM-V 系列有史以来效率与性能平衡最佳的模型。它以仅 1.3B 的参数规模,实现了性能与效率的双重突破,在全球同尺寸模型中登顶,全面超越了阿里 Qwen3.5-0.8B 与谷歌 Gemma4-E2B-it。Jinja00
Intern-S2-PreviewIntern-S2-Preview,这是一款高效的350亿参数科学多模态基础模型。除了常规的参数与数据规模扩展外,Intern-S2-Preview探索了任务扩展:通过提升科学任务的难度、多样性与覆盖范围,进一步释放模型能力。Python00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0110
