Stable-ts项目中使用Hugging Face Whisper模型的内存优化实践

2025-07-07 19:27:22作者：丁柯新Fawn

背景介绍

Stable-ts是一个基于Whisper模型的语音转录工具，支持使用Hugging Face提供的Whisper模型实现高效语音转文字。在实际使用中，用户发现当使用较大模型（如large-v3）时，GPU显存占用极高，甚至会导致48GB显存耗尽的情况。

问题分析

Hugging Face版本的Whisper模型默认采用批量处理(batch processing)机制，这是其转录速度较快的重要原因。但这种机制会带来较高的显存需求，主要体现在：

默认batch_size=24的设置对显存要求极高
大模型参数本身占用显存较多
注意力机制等计算密集型操作需要额外显存

解决方案

调整batch_size参数

最直接的优化方法是减小batch_size值。通过命令行参数可以轻松调整：

stable-ts --model large input.webm -o output.srt -to batch_size=5 -hw

这一调整可以显著降低显存占用，但会相应增加转录时间。用户需要根据自身硬件条件在速度和显存占用之间找到平衡点。

其他潜在优化方向

使用更小的模型(base/small等)
确保安装了支持Flash Attention的PyTorch版本
考虑使用CPU推理模式(虽然速度较慢)

常见警告信息解读

使用过程中可能会遇到以下警告信息，这些通常不会影响功能：

输入参数名称变更警告：提示inputs参数将被input_features取代
任务冲突警告：当同时指定任务类型和强制解码器ID时产生
Flash Attention未启用：建议安装支持Flash Attention的PyTorch以获得更好性能
缓存格式变更：未来版本将使用新的缓存格式
注意力掩码缺失：当填充标记与结束标记相同时产生
注意力实现回退：当前使用手动实现而非优化版本

最佳实践建议

对于长音频文件，建议先测试短片段确认配置正确
监控GPU显存使用情况，逐步调整batch_size
考虑使用pip install stable-ts[hf]安装Hugging Face专用依赖
关注警告信息中提到的未来版本变更，提前做好兼容准备

总结

通过合理调整batch_size等参数，可以在有限显存条件下有效使用Hugging Face版本的Whisper大模型。虽然会牺牲部分速度，但确保了转录任务的可行性。随着PyTorch和Transformers库的持续优化，未来有望在保持性能的同时进一步降低显存需求。

stable-ts

Transcription, forced alignment, and audio indexing with OpenAI's Whisper

项目地址：https://gitcode.com/gh_mirrors/st/stable-ts

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。