Skyvern项目v0.1.49版本发布：智能网页自动化能力全面升级

2025-06-03 13:49:15作者：申梦珏Efrain

项目地址：https://gitcode.com/GitHub_Trending/sk/skyvern

项目简介

Skyvern是一个基于人工智能的网页自动化平台，它能够模拟人类操作浏览器完成各种复杂的网页交互任务。通过结合计算机视觉、自然语言处理和机器学习技术，Skyvern可以理解网页内容，自动填写表单、点击按钮、导航页面等，大大简化了网页自动化的工作流程。

核心功能改进

1. 智能观察者（Observer）功能增强

本次版本对Skyvern的智能观察者功能进行了多项重要改进：

思维链技术应用：在用户目标提取和目标完成判断环节引入了思维链（Chain of Thought）技术，使得系统能够更准确地理解用户意图并评估任务完成状态。这种技术让AI能够展示其推理过程，提高了决策的透明度和可靠性。
异常处理机制：新增了对观察者运行过程中意外错误的处理能力，即使在任务失败或终止的情况下，观察者仍能继续探索解决方案，大大提高了系统的鲁棒性。
任务历史信息优化：改进了观察者对任务历史信息的处理方式，使其能够更有效地利用过往经验来指导当前操作，提升了自动化流程的连贯性和准确性。
总结功能：新增了观察者总结功能，能够对执行过程进行归纳分析，为后续优化提供数据支持。

2. 用户体验优化

参数添加提示：在添加参数时增加了工具提示（Tooltip），让用户更清晰地了解每个参数的作用和用法。
缓存问题修复：解决了保存任务时的React Query缓存键问题，提升了前端性能和数据一致性。
日期选择器改进：修复了日期选择器相关的操作问题，使表单填写更加顺畅。

3. 浏览器管理增强

持久会话支持：在可运行任务中实现了持久化浏览器会话的支持，使得长时间运行的自动化任务能够保持状态连续性。
API标准化：定义了浏览器管理API，为后续功能扩展奠定了基础。

4. 模型服务扩展

新增了对Novita AI模型提供商的支持，为用户提供了更多选择，可以根据不同场景选择最适合的AI模型服务。

技术细节优化

元素选择稳定性：针对网页元素选择进行了多项修复，包括：
- 改进首个步骤获取逻辑
- 优化阻塞元素识别算法
- 提升选择器匹配精度
工作流运行处理：加强了对工作流运行输出为空情况的处理，避免因此导致的流程中断。
哈希触发阈值调整：将哈希触发阈值降低至150，使得系统对页面变化的检测更加敏感。
动作ID前缀统一：将动作ID前缀统一为"act"，提高了代码的一致性和可读性。

应用场景

Skyvern的这些改进特别适用于以下场景：

复杂表单自动化：如保险申请、金融服务等需要填写大量信息的场景，智能观察者能够更准确地理解表单结构并完成填写。
数据抓取任务：持久会话支持和改进的元素选择能力使得爬取需要登录或分页的数据更加可靠。
业务流程自动化：如订单处理、客户服务等重复性工作，系统能够更稳定地完成端到端操作。
无障碍测试：改进的观察者功能可以更好地模拟不同用户的操作路径，帮助发现网站的可访问性问题。

未来展望

从本次更新可以看出，Skyvern正在向更加智能、稳定的方向发展。特别是观察者功能的持续增强，标志着项目从简单的自动化脚本向具备认知能力的智能代理演进。随着模型服务的扩展和浏览器管理能力的提升，Skyvern有望成为企业级自动化解决方案的重要选择。

对于开发者而言，新版本提供了更可靠的API和更完善的错误处理机制；对于终端用户，则带来了更流畅的操作体验和更高的任务成功率。这些改进共同推动着网页自动化技术向更高水平发展。

项目地址：https://gitcode.com/GitHub_Trending/sk/skyvern

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统