本地音频转录工具Buzz使用指南

2026-04-30 10:10:17作者：庞眉杨Will

Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAI's Whisper.

项目地址：https://gitcode.com/GitHub_Trending/buz/buzz

本地音频转录和语音转文字技术正在改变我们处理音频内容的方式。Buzz作为一款基于OpenAI Whisper技术的本地音频处理工具，让用户能够在个人电脑上离线完成高质量的语音转文字任务。无需依赖云端服务，既保护了数据隐私，又能实现高效的音频转录、实时录音、多语言识别和文本编辑功能。

基础认知：Buzz核心功能解析

如何用Buzz实现本地音频转录

Buzz最核心的功能是本地音频转录，无需联网即可将音频文件转换为文字。它支持多种音频和视频格式，通过内置的Whisper模型实现高精度转换。整个过程在用户自己的电脑上完成，确保音频数据不会泄露到外部服务器。

如何用Buzz进行实时录音转文字

除了处理已有的音频文件，Buzz还提供实时录音转录功能。用户可以直接通过麦克风输入声音，系统会实时将语音转换为文字，延迟可低至20秒。这对于会议记录、讲座实时笔记等场景非常实用。

如何配置Buzz的多语言识别功能

Buzz支持超过99种语言的识别，并且能够自动检测语音语种。用户可以在设置中手动选择目标语言，也可以让系统自动识别。这一功能使得处理多语言音频内容变得简单高效。

图1：Buzz音频转录工具的实时录音界面，显示模型选择和转录文本预览，支持本地音频转录和语音转文字功能

技术参数与支持格式

模型对比表格

模型类型	速度	准确率	适用场景	推荐硬件配置
Tiny	最快	基础	短音频、快速转录	普通笔记本
Base	快	良好	日常使用、中等长度音频	普通笔记本
Small	中等	高	重要会议、较长音频	高性能笔记本
Medium	较慢	很高	专业转录、播客内容	带独立显卡的电脑
Large	最慢	最高	高精度要求、学术研究	高性能PC或工作站

支持的媒体格式

音频格式	视频格式
MP3	MP4
WAV	FLV
FLAC	AVI
M4A	MOV
OGG	MKV

场景化应用：Buzz实战案例

场景一：学术研究访谈转录

适用人群：研究人员、学生

操作流程：

点击主界面左上角的"+"按钮，选择"导入文件"
选择访谈录音文件，点击"打开"
在弹出的配置窗口中，选择"Whisper Medium"模型
设置语言为访谈使用的语言（如英语）
任务类型选择"转录"
点击"开始"按钮
转录完成后，使用编辑界面校对和修正文本
导出为PDF或DOCX格式保存

效果对比：手动转录1小时访谈需要约4-6小时，使用Buzz仅需20-30分钟，准确率可达95%以上。

图2：Buzz任务管理界面，显示队列中、处理中和已完成的音频转录任务，方便用户管理多个转录项目

场景二：视频课程字幕制作

适用人群：教育工作者、在线课程制作人员

操作流程：

导入教学视频文件
在配置窗口中，选择"Whisper Large"模型以获得更高准确率
设置源语言为视频中使用的语言
任务类型选择"转录"
完成转录后，打开转录结果
使用"调整时长"功能使字幕与视频节奏匹配
编辑和修正识别错误
导出为SRT格式

效果对比：手动制作30分钟视频的字幕需要2-3小时，使用Buzz可缩短至30分钟左右，同时支持多种格式导出。

场景三：多语言会议记录

适用人群：国际团队成员、会议记录员

操作流程：

使用Buzz的实时录音功能记录会议
在设置中启用"自动语言检测"
会议结束后，保存转录结果
使用翻译功能将记录翻译成所需语言
编辑和整理转录文本
导出为HTML或PDF格式分享给团队成员

效果对比：传统会议记录需要人工实时记录并事后整理，容易遗漏信息；使用Buzz可实时获取完整记录，同时支持多语言转换，提高国际团队协作效率。

进阶技巧：提升Buzz使用效率

如何优化Buzz的转录准确率

要获得最佳转录效果，可以采取以下措施：

选择合适的模型：重要内容使用Large模型，日常使用可选择Small或Medium模型
音频预处理：使用降噪软件处理背景噪音大的音频
调整音频音量：确保音频音量适中，避免过轻或过载
添加自定义词汇表：在设置中添加专业术语，提高特定领域词汇的识别准确率

图3：Buzz偏好设置界面，可配置模型、API密钥和导出选项，优化音频转录体验

如何批量处理多个音频文件

Buzz支持批量处理功能，提高处理效率：

将所有需要转录的音频文件放入同一个文件夹
在Buzz中启用"文件夹监控"功能
设置监控文件夹路径和处理参数
Buzz会自动按顺序处理文件夹中的所有文件
完成后自动导出到指定目录

如何自定义转录结果的格式

Buzz允许用户自定义转录结果的导出格式：

打开偏好设置窗口
在"常规"选项卡中找到"默认导出文件名"设置
使用占位符自定义文件名格式，如{{input_file_name}}_{{task}}_{{date_time}}
选择默认导出格式，如TXT、PDF、SRT等
设置默认导出文件夹，方便集中管理转录结果

转录结果编辑与优化

如何使用Buzz编辑转录文本

Buzz提供了功能完善的转录文本编辑界面：

转录完成后，双击任务条目打开编辑窗口
直接在表格中编辑文本内容
使用时间戳调整功能同步音频和文本
通过播放器控件听取音频，辅助校对
使用"翻译"功能将转录文本翻译成其他语言

图4：Buzz转录结果编辑界面，显示带时间戳的文本内容和播放控制，方便编辑和校对音频转录结果

如何调整字幕时长和格式

对于需要制作字幕的场景，Buzz提供了专门的调整工具：

在转录结果窗口中点击"调整"按钮
设置期望的字幕长度
配置合并选项，如按间隙合并、按标点符号拆分等
点击"合并"按钮应用设置
预览调整后的效果，必要时手动微调

图5：Buzz文本调整工具，可设置字幕长度和合并选项，优化音频转录结果的呈现方式

新手常见误区

Q: 为什么我的转录速度很慢？

A: 转录速度受模型大小和硬件性能影响。如果速度过慢，可以尝试以下解决方法：

选择更小的模型（如从Large改为Medium）
确保启用了GPU加速
关闭其他占用系统资源的程序
分割长音频文件为多个短文件

Q: 如何提高Buzz的识别准确率？

A: 提高准确率的方法包括：

使用更大的模型（如从Base改为Large）
确保音频质量良好，背景噪音小
在设置中添加专业术语到自定义词典
转录前提高音频音量，确保声音清晰

Q: Buzz支持哪些输出格式？

A: Buzz支持多种输出格式，包括：

文本格式：TXT、MD、DOCX
字幕格式：SRT、VTT
数据格式：JSON、CSV
办公格式：PDF、HTML

资源整合

官方文档

完整的使用指南和高级功能说明，请参考项目中的官方文档：docs/transcription_guide.md

配套工具

为提高音频转录质量，推荐使用项目提供的音频预处理工具：tools/audio_preprocess/

模型下载与硬件配置建议

模型下载说明：

首次使用Buzz时，会自动下载基础模型
高级模型（如Large）需要手动下载
模型文件较大（最大可达3GB），建议在网络条件良好时下载

硬件配置建议：

最低配置：双核CPU，4GB内存
推荐配置：四核CPU，8GB内存，支持CUDA的独立显卡
最佳配置：六核以上CPU，16GB内存，高性能NVIDIA显卡（如RTX 3060及以上）

通过本指南，您应该已经掌握了Buzz的基本使用方法和高级技巧。无论是学术研究、内容创作还是日常办公，Buzz都能帮助您高效完成音频转录任务，节省时间和精力。开始您的本地音频转录之旅，体验AI带来的效率提升吧！

Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAI's Whisper.

项目地址：https://gitcode.com/GitHub_Trending/buz/buzz

登录后查看全文

项目优选

收起

deepin linux kernel

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。