delayed-streams-modeling 的项目扩展与二次开发

2025-06-20 21:59:05作者：伍霜盼Ellen

delayed-streams-modeling

Delayed Streams Modeling (DSM) is a flexible formulation for streaming, multimodal sequence-to-sequence learning.

项目地址：https://gitcode.com/gh_mirrors/de/delayed-streams-modeling

项目的基础介绍

delayed-streams-modeling 是由 kyutai-labs 开发的一个开源项目，它提供了一种用于流式、多模态序列到序列学习的灵活公式，称为延迟流模型（DSM）。该项目主要应用于语音识别领域，支持实时语音转文本，并提供了英语和法语两种语言的模型。

项目的核心功能

流式推理：模型能够以块的形式处理音频数据，支持实时转录，适用于交互式应用。
高效批处理：使用 H100 GPU 可以实时处理 400 条流。
词级时间戳：返回每个词的时间戳，便于精确控制输出。
语义语音活动检测（VAD）：检测用户何时在说话，对于构建语音助手尤其有用。

项目使用了哪些框架或库？

PyTorch：用于深度学习模型的训练和推理。
Rust：用于构建高效的 Rust 服务器，处理并行流式查询。
MLX：Apple 的机器学习框架，支持在 Apple 硅片上进行硬件加速。

项目的代码目录及介绍

项目的代码目录结构如下：

configs：包含了模型配置文件。
scripts：提供了运行推理的脚本。
stt-rs：包含了 Rust 实现的语音识别服务器和独立运行脚本。
LICENSE-APACHE 和 LICENSE-MIT：项目的开源许可证文件。
README.md：项目的说明文件。

对项目进行扩展或者二次开发的方向

模型优化：可以根据实际应用需求，对模型进行优化，提高识别精度和实时性。
多语言支持：扩展模型以支持更多语言，增加其在全球化应用中的适用性。
跨平台部署：优化代码以支持更多平台，如移动设备或嵌入式系统。
前端界面开发：开发一个直观的用户界面，方便用户操作和使用语音识别功能。
集成其他服务：将语音识别功能集成到其他应用程序中，如智能助手、会议记录系统等。
性能提升：通过优化算法和服务器配置，提高处理能力和降低延迟。
社区支持：建立和维护一个活跃的开发者社区，共同推进项目的开发和改进。

delayed-streams-modeling

Delayed Streams Modeling (DSM) is a flexible formulation for streaming, multimodal sequence-to-sequence learning.

项目地址：https://gitcode.com/gh_mirrors/de/delayed-streams-modeling

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统