Mini-Omni项目中音频Token生成与损失计算的延迟模式解析

2025-06-25 22:32:34作者：姚月梅Lane

open-source multimodal large language model that can hear, talk while thinking. Featuring real-time end-to-end speech input and streaming audio output conversational capabilities.

项目地址：https://gitcode.com/gh_mirrors/mi/mini-omni

摘要

在Mini-Omni项目的音频生成任务中，采用了一种特殊的延迟模式(delayed pattern)来处理音频token的生成和损失计算。这种技术源自MusicGen模型的设计理念，旨在优化音频生成的质量和效率。

延迟模式的核心思想

延迟模式的核心在于通过错位的时间步预测来加速音频token生成过程。具体实现方式是：

在推理阶段，模型会斜向组织预测结果，从T0到T6时刻各选择一个token组成最终的7个音频token序列
这种设计使得模型能够并行生成多个时间步的预测，显著提高生成速度

训练阶段的实现要点

在训练过程中，为了与推理阶段保持一致，需要特别注意以下几点：

损失计算前的移位操作：必须对logits进行适当的移位处理，以匹配延迟模式的预测结构
掩码设计：需要构造特殊的掩码矩阵来屏蔽无效区域的损失计算

掩码矩阵的设计原理

正确的掩码矩阵应该呈现阶梯状的1值分布，例如：

0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0 0 0 0
0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0
0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0
0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0
0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0
0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

这种掩码设计确保了：