LiveKit Agents 1.0.21版本发布：语音AI代理能力全面升级

2025-06-10 20:47:29作者：廉彬冶Miranda

LiveKit Agents是一个开源的语音AI代理框架，它允许开发者构建实时语音交互应用。该框架集成了多种AI服务，包括语音识别、文本转语音、大语言模型等功能，为开发者提供了构建智能语音助手的完整工具链。

核心功能改进

音频处理优化

本次版本对音频处理模块进行了多项改进。首先修复了音频缓冲区快速旋转时可能出现的问题，特别是在处理空音频数据时的情况。其次对AudioStreamDecoder进行了缓冲区管理优化，提升了音频流的解码稳定性。这些改进使得语音交互过程中的音频处理更加可靠。

Gemini模型增强

Google Gemini模型在本版本中获得了多项功能增强。新增了对图像编码选项的支持，开发者现在可以更灵活地配置图像处理参数。同时修复了原始函数工具调用的兼容性问题，使Gemini能够更好地处理函数调用请求。此外还优化了用户转录文本的处理，自动去除前导空格，提升了文本处理的准确性。

性能与稳定性提升

在系统稳定性方面，本次更新做了多处改进。修复了语音识别中可能出现的"gather not retrieved"错误，增强了异常处理能力。针对Linux系统，默认启用了forkserver模式，提高了进程管理效率。同时优化了超时处理逻辑，确保连接超时设置能够正确应用。

新功能亮点

多模型切换支持

本次版本引入了环境变量配置功能，允许开发者通过环境变量在Gemini和Vertex AI之间灵活切换。这一特性为开发者提供了更大的灵活性，可以根据实际需求选择最适合的AI服务提供商。

分词处理增强

针对基于字符的语言（如中文、日文等），新增了简单的词语和句子分割功能。这一改进显著提升了这些语言在语音识别和文本处理中的准确性，为多语言支持打下了更好的基础。

提示词缓存指标

Gemini LLM现在支持提示词缓存的性能指标收集。这一功能帮助开发者更好地监控和优化提示词的使用效率，对于构建高效的对话系统非常有价值。

服务提供商特定改进

11labs服务增强

11labs文本转语音服务现在能够更优雅地处理意外响应负载，提高了服务的健壮性。当接收到非预期格式的响应时，系统不会直接失败，而是会尝试恢复或提供有意义的错误信息。

Deepgram默认模型更新

Deepgram语音服务现在默认使用aura-2模型进行文本转语音，这一模型提供了更自然、流畅的语音合成效果。

Neuphonic问题修复

解决了Neuphonic服务中的一些已知问题，并通过了相关的CI测试验证，确保了该服务的可靠性。

开发者体验优化

本次更新还包含多项开发者体验改进。新增了对OpenAI LLM的max_completion_tokens参数支持，让开发者能够更精确地控制生成文本的长度。调试工具也获得了质量提升，使开发过程更加顺畅。

LiveKit Agents 1.0.21版本通过上述改进，为开发者构建实时语音AI应用提供了更强大、更稳定的工具集。无论是音频处理、模型集成还是系统稳定性，都有了显著提升，值得开发者升级体验。

agents

A framework for building realtime voice AI agents 🤖🎙️📹

项目地址：https://gitcode.com/GitHub_Trending/agen/agents

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

496

521

pytorch

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

666

305

LiveKit Agents 1.0.21版本发布：语音AI代理能力全面升级

核心功能改进

音频处理优化

Gemini模型增强

性能与稳定性提升

新功能亮点

多模型切换支持

分词处理增强

提示词缓存指标

服务提供商特定改进

11labs服务增强

Deepgram默认模型更新

Neuphonic问题修复

开发者体验优化

热门内容推荐

最新内容推荐

项目优选

LiveKit Agents 1.0.21版本发布：语音AI代理能力全面升级

核心功能改进

音频处理优化

Gemini模型增强

性能与稳定性提升

新功能亮点

多模型切换支持

分词处理增强

提示词缓存指标

服务提供商特定改进

11labs服务增强

Deepgram默认模型更新

Neuphonic问题修复

开发者体验优化

相关内容推荐

热门内容推荐

最新内容推荐

项目优选