FunASR语音识别模型新增preset_spk_num参数支持

2025-05-24 06:15:17作者：韦蓉瑛

FunASR作为阿里巴巴达摩院开源的语音识别工具包，近期在其AutoModel.generate方法中新增了对preset_spk_num参数的支持，这一功能更新为语音识别中的说话人数量预设提供了更灵活的控制方式。

功能背景

在多说话人语音识别场景中，准确识别音频中包含的说话人数量是一个重要但具有挑战性的任务。传统的语音识别系统通常需要自动检测说话人数量，但在某些特定应用场景下，用户可能已经预先知道音频中包含的确切说话人数量。这时，为系统提供这一先验信息可以显著提高识别准确性。

preset_spk_num参数允许用户在调用AutoModel.generate方法时，预先指定音频中预期的说话人数量。这一参数主要作用于说话人分离和识别模块，能够：

要使用这一功能，用户只需在调用generate方法时添加preset_spk_num参数即可。例如，当处理一个包含2个说话人的音频时，可以这样设置：

res = model.generate(
    input="音频文件路径.wav",
    preset_spk_num=2
)

在底层实现上，FunASR通过以下方式利用preset_spk_num参数：

这一功能特别适用于以下场景：

需要注意的是，正确设置preset_spk_num参数可以提升识别性能，但错误设置（如设置数量与实际不符）可能导致识别质量下降。因此建议：

FunASR新增的preset_spk_num参数为语音识别系统提供了更精细的控制能力，特别是在多说话人场景下。这一功能的加入使得FunASR能够更好地适应各种实际应用场景，为用户提供更灵活的配置选项和更准确的识别结果。

登录后查看全文