sokuji 的项目扩展与二次开发

2025-06-01 23:27:25作者：韦蓉瑛

项目的基础介绍

sokuji 是一个开源的实时语音翻译桌面应用程序，由 kizuna-ai-lab 开发。该项目利用了 OpenAI 的 Realtime API，旨在消除实时对话中的语言障碍，通过捕获音频输入，通过 OpenAI 的高级模型进行处理，实时输出翻译结果。

项目的核心功能

实时语音翻译：使用 OpenAI 的 Realtime API 进行语音识别和翻译。
支持多种模型：兼容 GPT-4o Realtime 和 GPT-4o mini Realtime 模型。
自动转义检测：提供多种模式（正常、语义、禁用）。
音频可视化：显示波形图。
虚拟音频设备：在 Linux 上创建和管理虚拟音频设备（使用 PulseAudio/PipeWire）。
自动音频路由：在虚拟设备之间进行音频路由。
音频输入和输出设备选择：允许用户选择输入和输出设备。
完善的日志记录：追踪 API 交互。
可自定义的模型设置：如温度、最大令牌数。
用户转录模型选择：包括 gpt-4o-mini-transcribe、gpt-4o-transcribe、whisper-1。
噪音减少选项：包括无、近场、远场。
API 密钥验证：实时反馈验证结果。
配置持久化：在用户家目录中保存配置。
多通道音频支持：支持立体声。
推送至讲功能：使用空格键快捷启动。

项目使用了哪些框架或库？

Electron：用于创建桌面应用程序。
React：用于构建用户界面。
TypeScript：用于代码的静态类型检查。
OpenAI Realtime API：用于实时语音识别和翻译。
PulseAudio/PipeWire：用于虚拟音频设备支持。
SASS：用于样式处理。
React-Feather：用于图标。

项目的代码目录及介绍

项目的代码目录结构如下：

.
├── assets
├── docs
├── electron
├── extension
├── public
├── screenshots
├── src
├── .electronforge.config.js
├── .gitignore
├── LICENSE
├── README.md
├── forge.config.js
├── package-lock.json
├── package.json
├── tsconfig.json

assets：存放项目资源文件。
docs：存放项目文档。
electron：包含 Electron 项目的配置和启动脚本。
extension：包含浏览器扩展的相关代码。
public：存放公共文件，如 HTML、CSS 和图片等。
screenshots：存放项目屏幕截图。
src：包含项目的源代码，包括 React 组件和逻辑。
.electronforge.config.js：Electron Forge 配置文件。
.gitignore：Git 忽略文件。
LICENSE：项目许可证文件。
README.md：项目说明文件。
forge.config.js：Forge 配置文件。
package-lock.json：NPM 锁定文件。
package.json：项目依赖和脚本定义。
tsconfig.json：TypeScript 配置文件。

对项目进行扩展或者二次开发的方向

增加更多语言支持：可以通过集成更多语言的语音识别和翻译模型，扩大项目的语言覆盖范围。
优化用户体验：改进界面设计和交互逻辑，提升用户使用体验。
跨平台支持：虽然目前项目主要支持 Linux，但可以通过增加对 Windows 和 macOS 的支持，扩大用户群体。
增加个性化设置：允许用户自定义翻译偏好，如语言对、模型选择等。
性能优化：优化算法和资源管理，提高翻译的准确性和响应速度。
社区支持：建立社区，鼓励用户反馈和贡献代码，共同推动项目发展。

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理