首页
/ LocalVocal - 本地语音识别AI助手OBS插件

LocalVocal - 本地语音识别AI助手OBS插件

2026-02-06 05:47:53作者:郦嵘贵Just

LocalVocal是一款创新的OBS(开放广播软件)插件,利用AI技术实时将音频转化为文本并进行语言处理。这款插件完全本地化运行,无需GPU,无需云服务费用,确保用户数据隐私安全,即使在网络不稳定的情况下也能顺畅运行。

项目介绍

LocalVocal让您能够在本地机器上实时转录语音为文本,并同时翻译成任何语言。✅ 无需GPU,✅ 无云端费用,✅ 无需网络连接,✅ 无停机时间!隐私优先——所有数据都保留在您的机器上。

该插件运行OpenAI的Whisper来处理实时语音并预测转录,利用ggerganov的Whisper.cpp在CPU和GPU上高效运行模型。翻译功能使用CTranslate2实现。

核心特性

  • 实时转录:支持100种语言的实时语音转文本
  • 本地处理:所有音频转文本过程都在本地完成,不涉及任何云端服务
  • 硬件友好:无论有无GPU,都能高效运行
  • 多语言翻译:实时翻译字幕到主要语言,支持云端翻译服务和NMT模型
  • 字幕显示:使用文本源在屏幕上显示字幕
  • 文件输出:将字幕发送到.txt或.srt文件,供外部源或视频播放使用
  • 实时流媒体:通过RTMP流将字幕发送到YouTube、Twitch等平台
  • 自定义模型:支持使用自己的Whisper模型(任何GGML格式)
  • 硬件加速:支持CUDA、hipBLAS(AMD ROCm)、Apple Arm64、AVX和SSE加速
  • 字幕过滤:过滤或替换生成的任何部分字幕

技术架构

LocalVocal基于现代化的开发流程构建,包括GitHub工作流自动化测试和发布,以及跨平台编译支持(Mac OS X、Windows和Linux)。项目采用CMake构建系统,支持多种硬件加速后端:

  • CPU后端:通用x86_64、SSE4.2、AVX、AVX2、AVX512等优化版本
  • GPU加速:支持NVIDIA CUDA、AMD ROCm、Apple Metal和Vulkan
  • 跨平台支持:提供Windows、macOS和Linux的预编译版本

应用场景

  • 直播辅助:主播可以实时看到观众反馈,无需频繁查看聊天窗口
  • 教育直播:自动字幕功能有助于听力障碍者或非母语者理解讲座内容
  • 新闻报道:快速生成准确的新闻稿件,提高工作效率
  • 在线会议:自动生成会议纪要,方便回顾和分享
  • 内容创作:为视频内容添加实时字幕,提升观看体验

模型支持

插件附带Tiny.en模型,并通过下拉菜单自主下载其他Whisper模型。还提供选项选择磁盘上的外部GGML Whisper模型文件。

项目截图

构建与安装

从源码构建

项目支持在Mac OSX(Intel和Apple silicon)、Windows(带和不带NVIDIA CUDA)以及Linux上构建。

Mac OSX构建:

MACOS_ARCH="x86_64" ./.github/scripts/build-macos -c Release

Linux构建:

export ACCELERATION="nvidia"
./.github/scripts/build-linux

Windows构建:

.github/scripts/Build-Windows.ps1 -Configuration Release

安装说明

构建完成后,插件文件将位于./release/Release文件夹中。将.plugin文件复制到OBS插件目录,例如:

  • macOS: ~/Library/Application Support/obs-studio/plugins
  • Linux: ~/.config/obs-studio/plugins/obs-localvocal/bin/64bit
  • Windows: C:\Program Files\obs-studio\

使用指南

  1. 在OBS中添加LocalVocal过滤器到音频源
  2. 选择合适的Whisper模型和语言设置
  3. 配置字幕输出选项(屏幕显示、文件输出或流媒体)
  4. 根据需要设置翻译选项
  5. 开始录音或直播,实时查看转录结果

开发贡献

项目采用GPL v2开源协议,欢迎开发者贡献代码。项目结构清晰,主要源代码位于src/目录,包含:

  • 转录过滤器核心逻辑
  • Whisper工具集
  • 模型下载和管理工具
  • 翻译功能模块
  • 用户界面组件

未来展望

开发团队计划在未来版本中增加更多功能,包括:

  • 关键词剔除功能
  • 文本摘要功能
  • 情绪检测功能
  • 更多语言模型支持
  • 性能优化和改进

LocalVocal是一个持续发展的项目,致力于为内容创作者提供最先进的本地语音识别解决方案。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
docsdocs
暂无描述
Dockerfile
702
4.51 K
pytorchpytorch
Ascend Extension for PyTorch
Python
566
693
atomcodeatomcode
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started
Rust
546
98
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
957
955
kernelkernel
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
411
338
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.6 K
940
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.08 K
566
AscendNPU-IRAscendNPU-IR
AscendNPU-IR是基于MLIR(Multi-Level Intermediate Representation)构建的,面向昇腾亲和算子编译时使用的中间表示,提供昇腾完备表达能力,通过编译优化提升昇腾AI处理器计算效率,支持通过生态框架使能昇腾AI处理器与深度调优
C++
128
210
flutter_flutterflutter_flutter
暂无简介
Dart
948
235
Oohos_react_native
React Native鸿蒙化仓库
C++
340
387