从零开始使用Midscene.js:AI驱动的浏览器自动化工具
Midscene.js是一款革命性的开源浏览器自动化工具,它让AI成为你的浏览器操作员。通过自然语言描述任务需求,Midscene.js能够自动执行数据提取、页面验证等复杂浏览器操作,无需编写代码即可实现自动化测试和数据抓取。无论是技术新手还是专业开发者,都能快速上手这款强大工具。
环境准备清单
在开始安装Midscene.js之前,请确保你的系统满足以下要求:
- Node.js环境:需要安装Node.js和npm包管理器
- Git工具:用于克隆项目代码库
- 现代浏览器:推荐使用Chrome或Edge最新版
⚠️ 注意:请确保Node.js版本不低于v16.0.0,旧版本可能导致依赖安装失败
项目获取与安装步骤
1. 克隆项目代码库
打开终端,执行以下命令克隆项目到本地:
git clone https://gitcode.com/GitHub_Trending/mid/midscene
cd midscene
2. 安装项目依赖
项目使用pnpm作为包管理器,执行以下命令安装所有依赖:
npm install
💡 提示:如果安装过程中出现网络问题,可以尝试使用国内npm镜像:
npm install --registry=https://registry.npm.taobao.org
3. 项目结构概览
成功安装后,你会看到以下关键目录结构:
- apps/:包含各平台应用,如Chrome扩展、Web界面等
- packages/:核心功能模块,如AI模型集成、设备控制等
- scripts/:辅助脚本和工具
- docs/:项目文档和使用指南
一键启动指南
启动开发服务器
在项目根目录执行以下命令启动开发服务器:
npm run start
启动成功后,你可以通过浏览器访问http://localhost:3000打开Midscene.js的Playground界面。
图1:Midscene.js Playground界面展示,左侧为命令输入区,右侧为浏览器自动化操作预览
基本使用流程
- 在左侧"Prompt"输入框中用自然语言描述你的需求,例如:"点击搜索框并输入'耳机'"
- 点击"Run"按钮执行自动化操作
- 在右侧面板查看操作结果和浏览器实时状态
核心功能体验
自然语言驱动
Midscene.js最强大的功能是支持自然语言指令。你无需学习复杂的API,只需用日常语言描述想要完成的操作。系统会自动分析你的需求并转化为浏览器操作。
YAML脚本自动化
对于需要重复执行的任务,你可以创建YAML脚本文件。项目提供了丰富的YAML示例,位于packages/cli/tests/midscene_scripts/目录下。
Chrome扩展支持
项目提供了Chrome扩展,让浏览器自动化更加便捷。扩展源码位于apps/chrome-extension/目录,你可以按照以下步骤安装:
- 构建扩展:
cd apps/chrome-extension && npm run build - 在Chrome浏览器中打开
chrome://extensions/ - 启用"开发者模式"
- 点击"加载已解压的扩展程序",选择构建后的
dist目录
常见问题解决
依赖安装失败
如果npm install命令失败,请尝试:
- 更新npm:
npm install -g npm@latest - 清除npm缓存:
npm cache clean --force - 重新安装依赖:
npm install
服务启动后无法访问
- 检查端口是否被占用:
netstat -tuln | grep 3000 - 尝试修改端口:
npm run start -- --port 4000
AI功能无法使用
确保你已正确配置AI模型相关参数,配置文件位于packages/core/src/ai-model/目录。
进阶使用建议
自定义自动化脚本
你可以在packages/cli/tests/multi_yaml_scripts/目录下找到多文件YAML脚本示例,学习如何组合多个操作步骤。
扩展开发
如果需要扩展Midscene.js功能,可以参考packages/playground/src/adapters/目录下的适配器代码,了解如何集成新的浏览器或设备。
总结
Midscene.js通过AI技术彻底改变了浏览器自动化的使用方式,让复杂的自动化任务变得简单直观。无论是日常网页操作自动化,还是专业的测试场景,Midscene.js都能大幅提升你的工作效率。现在就开始探索这个强大工具,体验AI驱动的浏览器自动化吧!
更多详细文档请参考项目中的apps/site/docs/目录,包含完整的API参考和高级使用指南。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust050
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
ERNIE-ImageERNIE-Image 是由百度 ERNIE-Image 团队开发的开源文本到图像生成模型。它基于单流扩散 Transformer(DiT)构建,并配备了轻量级的提示增强器,可将用户的简短输入扩展为更丰富的结构化描述。凭借仅 80 亿的 DiT 参数,它在开源文本到图像模型中达到了最先进的性能。该模型的设计不仅追求强大的视觉质量,还注重实际生成场景中的可控性,在这些场景中,准确的内容呈现与美观同等重要。特别是,ERNIE-Image 在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,使其非常适合商业海报、漫画、多格布局以及其他需要兼具视觉质量和精确控制的内容创作任务。它还支持广泛的视觉风格,包括写实摄影、设计导向图像以及更多风格化的美学输出。Jinja00
