首页
/ LocalVocal - 本地语音识别AI助手OBS插件

LocalVocal - 本地语音识别AI助手OBS插件

2026-02-06 05:47:53作者:郦嵘贵Just

LocalVocal是一款创新的OBS(开放广播软件)插件,利用AI技术实时将音频转化为文本并进行语言处理。这款插件完全本地化运行,无需GPU,无需云服务费用,确保用户数据隐私安全,即使在网络不稳定的情况下也能顺畅运行。

项目介绍

LocalVocal让您能够在本地机器上实时转录语音为文本,并同时翻译成任何语言。✅ 无需GPU,✅ 无云端费用,✅ 无需网络连接,✅ 无停机时间!隐私优先——所有数据都保留在您的机器上。

该插件运行OpenAI的Whisper来处理实时语音并预测转录,利用ggerganov的Whisper.cpp在CPU和GPU上高效运行模型。翻译功能使用CTranslate2实现。

核心特性

  • 实时转录:支持100种语言的实时语音转文本
  • 本地处理:所有音频转文本过程都在本地完成,不涉及任何云端服务
  • 硬件友好:无论有无GPU,都能高效运行
  • 多语言翻译:实时翻译字幕到主要语言,支持云端翻译服务和NMT模型
  • 字幕显示:使用文本源在屏幕上显示字幕
  • 文件输出:将字幕发送到.txt或.srt文件,供外部源或视频播放使用
  • 实时流媒体:通过RTMP流将字幕发送到YouTube、Twitch等平台
  • 自定义模型:支持使用自己的Whisper模型(任何GGML格式)
  • 硬件加速:支持CUDA、hipBLAS(AMD ROCm)、Apple Arm64、AVX和SSE加速
  • 字幕过滤:过滤或替换生成的任何部分字幕

技术架构

LocalVocal基于现代化的开发流程构建,包括GitHub工作流自动化测试和发布,以及跨平台编译支持(Mac OS X、Windows和Linux)。项目采用CMake构建系统,支持多种硬件加速后端:

  • CPU后端:通用x86_64、SSE4.2、AVX、AVX2、AVX512等优化版本
  • GPU加速:支持NVIDIA CUDA、AMD ROCm、Apple Metal和Vulkan
  • 跨平台支持:提供Windows、macOS和Linux的预编译版本

应用场景

  • 直播辅助:主播可以实时看到观众反馈,无需频繁查看聊天窗口
  • 教育直播:自动字幕功能有助于听力障碍者或非母语者理解讲座内容
  • 新闻报道:快速生成准确的新闻稿件,提高工作效率
  • 在线会议:自动生成会议纪要,方便回顾和分享
  • 内容创作:为视频内容添加实时字幕,提升观看体验

模型支持

插件附带Tiny.en模型,并通过下拉菜单自主下载其他Whisper模型。还提供选项选择磁盘上的外部GGML Whisper模型文件。

项目截图

构建与安装

从源码构建

项目支持在Mac OSX(Intel和Apple silicon)、Windows(带和不带NVIDIA CUDA)以及Linux上构建。

Mac OSX构建:

MACOS_ARCH="x86_64" ./.github/scripts/build-macos -c Release

Linux构建:

export ACCELERATION="nvidia"
./.github/scripts/build-linux

Windows构建:

.github/scripts/Build-Windows.ps1 -Configuration Release

安装说明

构建完成后,插件文件将位于./release/Release文件夹中。将.plugin文件复制到OBS插件目录,例如:

  • macOS: ~/Library/Application Support/obs-studio/plugins
  • Linux: ~/.config/obs-studio/plugins/obs-localvocal/bin/64bit
  • Windows: C:\Program Files\obs-studio\

使用指南

  1. 在OBS中添加LocalVocal过滤器到音频源
  2. 选择合适的Whisper模型和语言设置
  3. 配置字幕输出选项(屏幕显示、文件输出或流媒体)
  4. 根据需要设置翻译选项
  5. 开始录音或直播,实时查看转录结果

开发贡献

项目采用GPL v2开源协议,欢迎开发者贡献代码。项目结构清晰,主要源代码位于src/目录,包含:

  • 转录过滤器核心逻辑
  • Whisper工具集
  • 模型下载和管理工具
  • 翻译功能模块
  • 用户界面组件

未来展望

开发团队计划在未来版本中增加更多功能,包括:

  • 关键词剔除功能
  • 文本摘要功能
  • 情绪检测功能
  • 更多语言模型支持
  • 性能优化和改进

LocalVocal是一个持续发展的项目,致力于为内容创作者提供最先进的本地语音识别解决方案。

登录后查看全文
热门项目推荐
相关项目推荐