Midscene.js：让AI成为你的智能浏览器操作员

2026-03-12 04:40:43作者：昌雅子Ethen

一、重新定义浏览器自动化：AI驱动的操作革命

当你需要重复执行网页操作时，是否曾希望有个"数字助手"能听懂你的指令？Midscene.js正是这样一款开源工具，它将自然语言转化为浏览器可执行的操作，让AI成为你的专属网页操作员。无论是数据提取、表单填写还是功能测试，只需用日常语言描述需求，系统就能自动规划并完成任务，彻底告别繁琐的代码编写。

核心价值：从"写代码"到"说需求"的跨越

传统自动化工具要求掌握特定语法（如Selenium的定位表达式），而Midscene.js通过AI理解能力，实现了三层突破：

自然交互：用"点击搜索框并输入'耳机'"替代复杂的CSS选择器
智能规划：自动拆解任务步骤，如将"购买商品"分解为搜索、筛选、下单流程
可视化反馈：通过操作记录和截图验证，直观展示执行过程

二、3步开启AI自动化：从安装到第一个任务

1. 环境准备：5分钟搭建基础框架

确保系统已安装Node.js，通过以下命令快速部署：

# 获取项目代码
git clone https://gitcode.com/GitHub_Trending/mid/midscene

# 进入工作目录
cd midscene

# 安装依赖
npm install

2. 启动Playground：可视化操作平台

运行启动命令后，系统会自动打开浏览器界面，这就是Midscene.js的"操作沙盘"：

# 启动演示环境
npm start

这个界面分为三个核心区域：左侧是操作指令输入区，中间是网页预览窗口，右侧显示执行状态。你可以直接在Prompt框中输入自然语言指令，如"点击搜索框并输入'无线耳机'"，然后点击"Run"按钮执行。

3. 执行第一个任务：商品价格监控

在Playground中输入以下指令：

在eBay搜索"无线耳机"，提取前5个商品的名称和价格

系统会自动完成搜索、数据提取，并生成结构化结果。整个过程无需编写任何代码，就像指挥真人助理一样简单。

三、场景落地：3个改变工作流的实战案例

📊 案例1：电商价格跟踪系统

问题：需要每日监控特定商品价格波动，但手动记录效率低下
方案：使用Midscene.js定时执行价格爬取任务
实现：

在Playground中定义指令："访问京东手机分类，记录前10款机型的价格"
设置定时任务（通过系统crontab或任务调度工具）
结果自动保存为CSV文件，异常价格变动触发邮件提醒

🔍 案例2：内容聚合机器人

问题：需要从多个新闻网站收集特定主题文章，人工筛选耗时
方案：配置多步骤自动化流程
关键步骤：

依次访问3个目标网站（技术博客、行业媒体、社交平台）
搜索关键词"AI自动化"
提取标题、发布时间和摘要
去重后生成日报

🧪 案例3：网页功能自动化测试

问题：网站更新后需要重复验证表单功能，回归测试成本高
方案：用自然语言定义测试用例
价值：测试人员只需描述"验证用户注册流程：填写表单→提交→验证成功页面"，系统自动执行并生成测试报告，将测试效率提升60%。

四、生态能力矩阵：无缝集成现有工具链

Midscene.js不是孤立工具，而是构建在成熟技术生态上的智能层，以下是三大维度的集成方案：

前端工具链集成

工具	集成方式	应用场景
Playwright	提供专用适配器	复杂浏览器控制
Puppeteer	API无缝对接	无头浏览器自动化
Chrome插件	可视化操作界面	无需编码的快速任务

AI模型支持

开源方案：UI-TARS、Qwen2.5-VL（本地部署，数据隐私保护）
API服务：GPT-4o、Claude 3（需网络连接，适合复杂任务）
模型切换：通过配置文件轻松更换后端AI服务

部署选项

本地模式：个人电脑运行，适合开发测试
服务器部署：Docker容器化，支持多用户共享
桥接模式：控制本地浏览器，保留登录状态和Cookie

五、常见问题速查

Q：Midscene.js能处理需要登录的网站吗？
A：支持，通过桥接模式可复用浏览器现有登录状态。

Q：执行效率如何？比传统自动化工具快吗？
A：首次执行包含AI思考时间，重复任务可缓存规划结果，平均提速30%。

Q：需要掌握编程知识吗？
A：基础使用无需编程，高级定制需了解JavaScript基础。

Q：支持移动端网页自动化吗？
A：目前专注桌面浏览器，移动支持正在开发中。

Q：如何保证操作准确性？
A：内置多轮验证机制，关键步骤自动截图确认。

通过Midscene.js，你可以将重复的网页操作转化为简单的自然语言指令，让AI成为真正的生产力助手。无论是数据工作者、测试工程师还是普通用户，都能快速掌握这种全新的交互方式，释放更多创造力。

midscene

AI-powered, vision-driven UI automation for every platform.

项目地址：https://gitcode.com/GitHub_Trending/mid/midscene

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

420

366

ppt-master

AI 将任意文档转换为精美可编辑的 PPTX 演示文稿 — 无需设计基础 | 包含 15 个案例、229 页内容

Python

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

442

4.52 K