Sherpa-ncnn 2.1.11版本发布：移动端语音识别引擎的重大更新

2025-07-02 11:12:29作者：凌朦慧Richard

Real-time speech recognition and voice activity detection (VAD) using next-gen Kaldi with ncnn without Internet connection. Support iOS, Android, Linux, macOS, Windows, Raspberry Pi, VisionFive2, LicheePi4A etc.

项目地址：https://gitcode.com/gh_mirrors/sh/sherpa-ncnn

Sherpa-ncnn是一个基于ncnn神经网络推理框架的轻量级语音识别引擎，专为移动设备和嵌入式系统优化设计。该项目由K2-FSA团队开发，支持多种语言模型，能够在资源受限的环境中实现高效的语音识别。最新发布的2.1.11版本带来了一系列重要改进和新功能。

核心功能增强

本次更新中，Sherpa-ncnn引入了Silero VAD版本4的支持。Silero VAD（语音活动检测）是一种高效的语音端点检测算法，能够准确识别音频流中的语音片段。版本4相比之前版本在检测精度和响应速度上都有显著提升，这使得Sherpa-ncnn在实时语音识别场景下的表现更加出色。

多语言模型支持

2.1.11版本继续强化了对多语言模型的支持，特别是针对双语识别场景进行了优化。发布的Android应用程序包(APK)包含了英语、中英双语和法语三种语言模型变体，覆盖了arm64-v8a、armeabi-v7a、x86和x86_64四种主流CPU架构。这种全面的架构支持确保了Sherpa-ncnn可以在各种Android设备上高效运行。

性能优化与稳定性提升

开发团队在此版本中升级到了ncnn框架的最新主分支版本，这带来了底层神经网络推理性能的显著提升。同时，对alsa-lib音频库版本的固定处理增强了音频输入模块的稳定性，特别是在Linux平台上的表现更加可靠。

开发者体验改进

对于集成Sherpa-ncnn的开发者，2.1.11版本通过增加更详细的JNI日志输出，大大简化了调试过程。新增的hotwordsFile功能允许开发者更方便地指定关键词列表，这对于构建具有特定领域词汇识别能力的应用非常有帮助。

跨平台支持

除了Android平台外，2.1.11版本还提供了WASM SIMD版本的预编译包，这使得Sherpa-ncnn可以在支持WebAssembly的浏览器环境中运行，为Web应用集成语音识别功能提供了可能。SIMD指令集的支持确保了在浏览器环境中的高效执行。

总结

Sherpa-ncnn 2.1.11版本通过引入新的语音活动检测算法、优化多语言支持、提升底层框架性能和改善开发者体验，进一步巩固了其作为轻量级跨平台语音识别解决方案的地位。这些改进使得Sherpa-ncnn在各种嵌入式设备和移动应用场景中的适用性更加广泛，为开发者提供了更强大、更灵活的工具来构建语音交互功能。

sherpa-ncnn