FunASR项目AutoModel.generate方法新增preset_spk_num参数支持

2025-05-24 03:16:28作者：幸俭卉

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

项目地址：https://gitcode.com/GitHub_Trending/fun/FunASR

FunASR作为一款先进的语音识别工具包，近期对其AutoModel.generate方法进行了重要功能升级。该升级主要针对语音识别中的说话人数量预设功能，新增了preset_spk_num参数支持，为多说话人场景下的语音识别提供了更精确的控制手段。

在语音识别任务中，特别是在会议记录、访谈转录等场景下，准确识别不同说话人的语音内容至关重要。传统的语音识别系统往往需要额外的说话人分割和聚类步骤，而FunASR通过引入preset_spk_num参数，允许开发者在模型推理阶段直接预设预期的说话人数量，从而优化识别效果。

该参数的实现原理是基于说话人嵌入空间的分析。当开发者明确知道音频中包含的说话人数量时，系统可以更准确地进行说话人特征提取和聚类。这对于固定参与人数的会议录音、双人对话等场景特别有用，能够显著提高说话人分割的准确率。

使用这一新功能非常简单。开发者只需在调用AutoModel.generate方法时，通过preset_spk_num参数指定预期的说话人数量即可。例如，在处理一个两人对话的音频时，可以将该参数设置为2，系统会自动优化说话人识别过程。

值得注意的是，preset_spk_num参数需要与说话人识别模型(spk_model)配合使用。当不指定spk_model时，该参数不会生效。此外，该参数的值应该与实际说话人数量尽可能匹配，过大或过小都可能影响识别效果。

这一功能的加入使得FunASR在多说话人语音识别场景下的表现更加出色，为开发者提供了更灵活的配置选项。通过合理使用preset_spk_num参数，可以在已知说话人数量的场景下获得更准确的识别结果，进一步提升语音识别系统的实用性。

FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

项目地址：https://gitcode.com/GitHub_Trending/fun/FunASR

登录后查看全文

项目优选

收起

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openGauss kernel ~ openGauss is an open source relational database management system

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

346

380

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

harmony-utils 一款功能丰富且极易上手的HarmonyOS工具库，借助众多实用工具类，致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备、屏幕、授权、通知、线程间通信、弹框、吐司、生物认证、用户首选项、拍照、相册、扫码、文件、日志，异常捕获、字符、字符串、数字、集合、日期、随机、base64、加密、解密、JSON等一系列的功能和操作，能够满足各种不同的开发需求。

ArkTS

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境

微信开发 Java SDK，支持微信支付、开放平台、公众号、视频号、企业微信、小程序等的后端开发，记得关注公众号及时接受版本更新信息，以及加入微信群进行深入讨论

Java

829

cherry-studio

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

TypeScript

603

FunASR项目AutoModel.generate方法新增preset_spk_num参数支持

热门内容推荐

最新内容推荐

项目优选

FunASR项目AutoModel.generate方法新增preset_spk_num参数支持

相关内容推荐

热门内容推荐

最新内容推荐

项目优选