首页
/ 从零开始使用Midscene.js:AI驱动的浏览器自动化工具

从零开始使用Midscene.js:AI驱动的浏览器自动化工具

2026-04-15 08:43:31作者:郁楠烈Hubert

Midscene.js是一款革命性的开源浏览器自动化工具,它让AI成为你的浏览器操作员。通过自然语言描述任务需求,Midscene.js能够自动执行数据提取、页面验证等复杂浏览器操作,无需编写代码即可实现自动化测试和数据抓取。无论是技术新手还是专业开发者,都能快速上手这款强大工具。

环境准备清单

在开始安装Midscene.js之前,请确保你的系统满足以下要求:

  • Node.js环境:需要安装Node.js和npm包管理器
  • Git工具:用于克隆项目代码库
  • 现代浏览器:推荐使用Chrome或Edge最新版

⚠️ 注意:请确保Node.js版本不低于v16.0.0,旧版本可能导致依赖安装失败

项目获取与安装步骤

1. 克隆项目代码库

打开终端,执行以下命令克隆项目到本地:

git clone https://gitcode.com/GitHub_Trending/mid/midscene
cd midscene

2. 安装项目依赖

项目使用pnpm作为包管理器,执行以下命令安装所有依赖:

npm install

💡 提示:如果安装过程中出现网络问题,可以尝试使用国内npm镜像:npm install --registry=https://registry.npm.taobao.org

3. 项目结构概览

成功安装后,你会看到以下关键目录结构:

  • apps/:包含各平台应用,如Chrome扩展、Web界面等
  • packages/:核心功能模块,如AI模型集成、设备控制等
  • scripts/:辅助脚本和工具
  • docs/:项目文档和使用指南

一键启动指南

启动开发服务器

在项目根目录执行以下命令启动开发服务器:

npm run start

启动成功后,你可以通过浏览器访问http://localhost:3000打开Midscene.js的Playground界面。

Midscene.js Playground界面

图1:Midscene.js Playground界面展示,左侧为命令输入区,右侧为浏览器自动化操作预览

基本使用流程

  1. 在左侧"Prompt"输入框中用自然语言描述你的需求,例如:"点击搜索框并输入'耳机'"
  2. 点击"Run"按钮执行自动化操作
  3. 在右侧面板查看操作结果和浏览器实时状态

核心功能体验

自然语言驱动

Midscene.js最强大的功能是支持自然语言指令。你无需学习复杂的API,只需用日常语言描述想要完成的操作。系统会自动分析你的需求并转化为浏览器操作。

YAML脚本自动化

对于需要重复执行的任务,你可以创建YAML脚本文件。项目提供了丰富的YAML示例,位于packages/cli/tests/midscene_scripts/目录下。

Chrome扩展支持

项目提供了Chrome扩展,让浏览器自动化更加便捷。扩展源码位于apps/chrome-extension/目录,你可以按照以下步骤安装:

  1. 构建扩展:cd apps/chrome-extension && npm run build
  2. 在Chrome浏览器中打开chrome://extensions/
  3. 启用"开发者模式"
  4. 点击"加载已解压的扩展程序",选择构建后的dist目录

常见问题解决

依赖安装失败

如果npm install命令失败,请尝试:

  1. 更新npm:npm install -g npm@latest
  2. 清除npm缓存:npm cache clean --force
  3. 重新安装依赖:npm install

服务启动后无法访问

  • 检查端口是否被占用:netstat -tuln | grep 3000
  • 尝试修改端口:npm run start -- --port 4000

AI功能无法使用

确保你已正确配置AI模型相关参数,配置文件位于packages/core/src/ai-model/目录。

进阶使用建议

自定义自动化脚本

你可以在packages/cli/tests/multi_yaml_scripts/目录下找到多文件YAML脚本示例,学习如何组合多个操作步骤。

扩展开发

如果需要扩展Midscene.js功能,可以参考packages/playground/src/adapters/目录下的适配器代码,了解如何集成新的浏览器或设备。

总结

Midscene.js通过AI技术彻底改变了浏览器自动化的使用方式,让复杂的自动化任务变得简单直观。无论是日常网页操作自动化,还是专业的测试场景,Midscene.js都能大幅提升你的工作效率。现在就开始探索这个强大工具,体验AI驱动的浏览器自动化吧!

更多详细文档请参考项目中的apps/site/docs/目录,包含完整的API参考和高级使用指南。

登录后查看全文
热门项目推荐
相关项目推荐