Airtest项目在Jenkins Windows节点执行失败的解决方案
问题背景
在使用Airtest进行Windows UI自动化测试时,开发人员遇到了一个典型的环境问题:当测试脚本直接在Windows测试机上运行时能够正常工作,但通过Jenkins slave节点执行时却会失败,并抛出pywintypes.error: (5, 'GetCursorPos', '拒绝访问。')的错误。
错误分析
这个错误的核心在于Windows API函数GetCursorPos被拒绝访问,这表明Jenkins服务在执行时没有足够的权限来获取鼠标光标位置信息。Airtest框架在Windows平台上依赖于pywin32库来模拟用户操作,包括鼠标点击、键盘输入等UI交互行为。
深层原因
-
会话隔离:Windows服务(包括Jenkins服务)默认运行在Session 0中,而用户界面交互需要运行在用户会话中(通常为Session 1)。这种会话隔离机制导致了UI自动化操作无法正常进行。
-
权限限制:即使使用管理员账户运行Jenkins服务,Windows的安全机制仍然会限制服务进程对用户界面元素的访问权限。
-
交互式服务检测:现代Windows系统(如Windows 10)加强了服务与用户界面的隔离,防止服务进程直接与用户桌面交互。
解决方案
方案一:修改Jenkins服务运行方式
-
将Jenkins服务配置为以交互式服务运行:
- 打开服务管理器(services.msc)
- 找到Jenkins服务
- 右键选择"属性"
- 在"登录"选项卡中勾选"允许服务与桌面交互"
- 重启Jenkins服务
-
或者将Jenkins服务改为使用本地系统账户运行:
- 在服务属性中,选择"登录"选项卡
- 选择"本地系统账户"
- 勾选"允许服务与桌面交互"
- 重启服务
方案二:使用特殊账户配置
- 创建一个专门用于自动化测试的Windows账户
- 配置Jenkins slave节点以该账户身份运行
- 确保该账户具有管理员权限
- 首次使用时需要手动登录该账户以建立用户会话
方案三:使用远程桌面保持会话
- 通过远程桌面连接到测试机器
- 在远程会话中启动Jenkins slave进程
- 保持远程桌面连接不断开(可以最小化)
最佳实践建议
-
专用测试账户:为UI自动化测试创建专用Windows账户,避免使用系统服务账户。
-
会话保持:确保测试运行时有一个活跃的用户会话,可以通过自动登录或保持远程连接实现。
-
权限管理:为测试账户分配适当的权限,包括UI访问权限和必要的系统权限。
-
日志记录:增强错误处理和日志记录,便于快速定位类似权限问题。
-
环境验证:在测试脚本开始时添加环境检查步骤,验证UI自动化所需权限是否可用。
技术原理扩展
Windows操作系统设计上将服务和用户界面隔离主要是出于安全考虑。服务通常运行在后台,不需要用户交互,而UI自动化测试则需要模拟真实用户操作。这种隔离机制在Windows Vista及更高版本中变得更加严格,这就是为什么在较新Windows系统上更容易遇到此类问题。
Airtest框架在Windows平台上依赖于Windows API来实现UI自动化,包括:
- 获取窗口句柄
- 模拟鼠标键盘输入
- 捕获屏幕图像
- 获取UI元素信息
所有这些操作都需要在正确的用户上下文中执行,这就是为什么直接登录运行正常而通过服务运行失败的根本原因。
AutoGLM-Phone-9BAutoGLM-Phone-9B是基于AutoGLM构建的移动智能助手框架,依托多模态感知理解手机屏幕并执行自动化操作。Jinja00
Kimi-K2-ThinkingKimi K2 Thinking 是最新、性能最强的开源思维模型。从 Kimi K2 开始,我们将其打造为能够逐步推理并动态调用工具的思维智能体。通过显著提升多步推理深度,并在 200–300 次连续调用中保持稳定的工具使用能力,它在 Humanity's Last Exam (HLE)、BrowseComp 等基准测试中树立了新的技术标杆。同时,K2 Thinking 是原生 INT4 量化模型,具备 256k 上下文窗口,实现了推理延迟和 GPU 内存占用的无损降低。Python00
GLM-4.6V-FP8GLM-4.6V-FP8是GLM-V系列开源模型,支持128K上下文窗口,融合原生多模态函数调用能力,实现从视觉感知到执行的闭环。具备文档理解、图文生成、前端重构等功能,适用于云集群与本地部署,在同类参数规模中视觉理解性能领先。Jinja00
HunyuanOCRHunyuanOCR 是基于混元原生多模态架构打造的领先端到端 OCR 专家级视觉语言模型。它采用仅 10 亿参数的轻量化设计,在业界多项基准测试中取得了当前最佳性能。该模型不仅精通复杂多语言文档解析,还在文本检测与识别、开放域信息抽取、视频字幕提取及图片翻译等实际应用场景中表现卓越。00
GLM-ASR-Nano-2512GLM-ASR-Nano-2512 是一款稳健的开源语音识别模型,参数规模为 15 亿。该模型专为应对真实场景的复杂性而设计,在保持紧凑体量的同时,多项基准测试表现优于 OpenAI Whisper V3。Python00
GLM-TTSGLM-TTS 是一款基于大语言模型的高质量文本转语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合了用于语音 token 生成的大语言模型(LLM)和用于波形合成的流匹配(Flow Matching)模型。 通过引入多奖励强化学习框架,GLM-TTS 显著提升了合成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。Python00
Spark-Formalizer-X1-7BSpark-Formalizer 是由科大讯飞团队开发的专用大型语言模型,专注于数学自动形式化任务。该模型擅长将自然语言数学问题转化为精确的 Lean4 形式化语句,在形式化语句生成方面达到了业界领先水平。Python00