OpenAdapt项目v0.44.0版本发布：新增语音描述功能与构建优化

2025-07-03 07:35:19作者：明树来

OpenAdapt是一个开源的自动化工具项目，旨在通过记录用户操作并生成可重放的脚本，实现工作流程的自动化。该项目采用Python编写，支持跨平台运行，能够捕获鼠标、键盘等输入设备事件，并将其转化为可执行的自动化任务。

本次发布的v0.44.0版本主要引入了对语音描述功能的支持，并对项目构建系统进行了优化。这些改进使得OpenAdapt在用户体验和开发流程方面都有了显著提升。

新增语音描述功能

v0.44.0版本的核心特性是新增了ActionEvent.prompt_for_description功能，这为自动化操作添加了语音描述的维度。该功能通过以下技术实现：

语音识别集成：项目现在集成了OpenAI的Whisper语音识别模型，能够将用户的语音输入转换为文本描述。这使得用户可以通过语音方式为自动化操作添加注释或说明。
交互式描述提示：新增的display_event方法支持在界面上显示操作事件，并允许用户通过语音或文本方式添加描述。方法参数包括darken_outside（是否暗化背景）和display_text（显示文本）等选项，提供了良好的用户体验。
多媒体支持扩展：图像处理工具utils.image2utf8现在增加了对PNG格式的支持，这为后续可能的屏幕截图描述功能奠定了基础。
模型版本更新：项目中使用的Anthropic模型已升级至claude-3-5-sonnet-20241022版本，提升了自然语言处理能力。

在构建系统方面，v0.44.0版本进行了以下改进：

依赖管理调整：项目从Poetry切换到了uv作为包管理工具，虽然这一变更在后续被回滚，但体现了团队对构建工具链的持续优化尝试。
Python版本支持：明确指定了Python版本要求为3.10及以上但低于3.12，确保了开发环境的稳定性。
安装流程简化：移除了postinstall脚本中的install_whisper步骤，改为直接通过包管理器安装OpenAI Whisper，简化了安装流程。

从技术实现角度看，本次更新有几个值得注意的细节：

数据库查询优化：在获取最新录音记录时使用了joinedload技术，这是一种高效的数据库查询策略，可以减少查询次数，提高性能。
音频录制配置：默认将RECORD_AUDIO设置为false，体现了对用户隐私的考虑，只有在需要时才启用音频录制功能。
实验性功能：新增了experiments/describe_action.py文件，表明团队正在探索如何更好地描述自动化操作，这可能会成为未来版本的重要功能。