AI-Vtuber项目中SenseVoice语音识别问题的分析与解决

2025-06-18 21:04:37作者：谭伦延

AI Vtuber是一个由【ChatterBot/ChatGPT/claude/langchain/chatglm/text-gen-webui/闻达/千问/kimi/ollama】驱动的虚拟主播【Live2D/UE/xuniren】，可以在【Bilibili/抖音/快手/微信视频号/拼多多/斗鱼/YouTube/twitch/TikTok】直播中与观众实时互动或直接在本地进行聊天。它使用TTS技术【edge-tts/VITS/elevenlabs/bark/bert-vits2/睿声】生成回答并可以选择【so-vits-svc/DDSP-SVC】变声；指令协同SD画图。

项目地址：https://gitcode.com/gh_mirrors/ai/AI-Vtuber

问题背景

在AI-Vtuber项目中，用户报告了一个关于SenseVoice语音识别模块无法正常工作的问题。该问题表现为控制台输出多个警告信息，包括关于torch.cuda.amp.autocast的弃用警告和torch.load的安全警告。这些问题影响了语音识别功能的正常运行。

错误现象分析

当运行AI-Vtuber项目时，系统会输出以下关键警告信息：

torch.cuda.amp.autocast(args...)已被弃用，建议使用torch.amp.autocast('cuda', args...)替代
torch.load使用了不安全的weights_only=False默认值，存在潜在的安全风险
虽然安装了最新版本的funasr-1.1.3，但语音识别功能仍然无法正常工作

根本原因

经过深入分析，发现问题的主要原因是PyTorch版本兼容性问题。具体表现为：

PyTorch版本过高：当PyTorch版本超过2.3.0时，会导致自动混合精度(AMP)API的变更，从而产生弃用警告
依赖库兼容性：funasr-1.1.3版本对PyTorch版本有特定要求，过高版本会导致功能异常
安全警告：新版本PyTorch加强了安全限制，默认加载模型的方式存在潜在风险

解决方案

针对上述问题，我们推荐以下解决方案：

1. 调整PyTorch版本

将PyTorch版本降级到2.3.0或以下版本可以解决大部分兼容性问题：

pip install torch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cu121

2. 完整环境重建

如果简单的版本降级无法解决问题，建议完全重建Python虚拟环境：

创建新的conda环境
按照项目要求安装指定版本的依赖
特别注意PyTorch和相关库的版本匹配

3. 代码适配

对于长期维护的项目，建议对代码进行以下适配：

更新自动混合精度的使用方式，采用新的API：

# 旧方式
@torch.cuda.amp.autocast(enabled=False)

# 新方式
@torch.amp.autocast('cuda', enabled=False)

显式设置weights_only=True以提高安全性：

src_state = torch.load(path, map_location=map_location, weights_only=True)

预防措施

为避免类似问题再次发生，建议：

版本锁定：在requirements.txt或environment.yml中精确指定关键库的版本
持续集成测试：设置自动化测试流程，及时发现版本兼容性问题
依赖监控：定期检查项目依赖库的更新情况，评估升级风险

总结

AI-Vtuber项目中的SenseVoice语音识别问题主要源于PyTorch版本过高导致的API变更和兼容性问题。通过调整PyTorch版本至2.3.0或以下，可以解决大部分功能异常。对于长期项目维护，建议进行代码适配并建立完善的依赖管理机制，以确保项目的稳定运行。

这个问题也提醒我们，在AI项目中，特别是涉及复杂依赖关系的情况下，版本管理至关重要。合理的版本控制和及时的兼容性测试能够有效避免类似问题的发生。

AI-Vtuber

项目地址：https://gitcode.com/gh_mirrors/ai/AI-Vtuber

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

Python

2.25 K

677