Whisper.cpp项目在AMD集成显卡上的Vulkan后端概率向量异常问题分析

2025-05-02 09:55:13作者：房伟宁

问题背景

在语音识别领域，Whisper.cpp作为一款开源的语音识别工具，因其高效和跨平台特性受到广泛关注。近期有开发者反馈，在特定硬件环境下使用Vulkan后端时出现了概率向量计算异常的问题。

环境配置与现象

该问题主要出现在以下硬件配置中：

操作系统：Windows 11
处理器：AMD Ryzen 7 7840u
集成显卡：AMD Radeon 780M
模型：ggml-tiny.bin

在Release构建模式下，程序输出会出现以下异常现象：

时间戳显示为大量感叹号
不同运行间的输出结果不一致
转写内容完全错误

当切换到Debug构建模式时，系统会抛出"invalid probability vector for discrete_distribution"的断言错误，这直接指向了概率向量计算的核心问题。

技术分析

概率向量计算机制

Whisper.cpp在处理语音识别时，会通过神经网络计算各个token的概率分布。这个概率向量需要满足两个基本条件：

所有元素必须为非负数
所有元素之和应等于1（归一化）

Vulkan后端问题根源

通过深入分析，发现问题出在Vulkan着色器代码中的soft_max函数实现上。具体来说，当处理某些特定维度的张量时，会出现除数为零的情况，这直接导致了概率向量的异常。

解决方案验证

经过多次测试，确认以下修改可以解决该问题：

在soft_max.comp着色器文件中
将原有的取模运算const uint rowy = rowx % p.KY
修改为带保护的版本const uint rowy = (p.KY > 0) ? (rowx % p.KY) : 0

这种修改确保了在任何情况下都不会出现除数为零的错误，从而保证了概率向量的正确性。

兼容性考量

值得注意的是，这个问题在不同硬件平台上的表现可能不同：

在NVIDIA 1080Ti显卡上可能不会出现
在部分AMD独立显卡上可能仍然存在问题
与Vulkan驱动版本也有一定相关性

最佳实践建议

对于开发者使用Whisper.cpp的Vulkan后端，建议：

优先使用最新版本的代码库
在AMD集成显卡环境下特别注意此问题
开发过程中同时测试Release和Debug版本
对于关键应用，考虑实现自动回退机制

总结

Whisper.cpp在AMD集成显卡上的Vulkan后端概率向量异常问题，揭示了跨平台开发中硬件差异带来的挑战。通过深入分析着色器代码中的边界条件，我们找到了稳健的解决方案。这也提醒开发者，在异构计算环境中，需要特别注意数值计算的稳定性问题。

未来，随着Whisper.cpp项目的持续发展，这类平台相关问题的解决方案有望被纳入主分支，为更多开发者提供更稳定的跨平台体验。

whisper.cpp

OpenAI 的 Whisper 模型在 C/C++ 中的移植版本。

项目地址：https://gitcode.com/GitHub_Trending/wh/whisper.cpp

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

1.13 K

271