GLM-4-Voice项目中的Moshi模型评测复现问题分析

2025-06-28 01:19:18作者：史锋燃Gardner

背景介绍

在THUDM团队开发的GLM-4-Voice项目中，研究人员对多种语音-文本预训练模型进行了系统性的评测比较。其中，Moshi模型作为对比基线之一，在技术报告中展示了5.40的评测分数。然而，社区开发者在尝试复现这一评测结果时遇到了困难，主要表现为模型仅回复"How are you"等开场白而无法正常回答问题。

问题现象

多位开发者在复现过程中发现，使用火山引擎seed TTS生成的音频输入Moshi模型后，模型输出存在以下异常情况：

绝大多数情况下仅回复标准开场白
极少数情况下能在开场白后给出正式回复
评测分数与论文报告结果存在显著差异

技术分析

经过深入分析，发现该问题主要源于Moshi模型的特殊设计特性：

全双工对话设计：Moshi模型专为全双工对话场景优化，要求每次对话必须从模型问候开始
输入时序要求：模型需要3秒的空白音频输入来完成初始问候环节
音频长度对齐：输入音频需要按1920样本的倍数进行填充对齐

解决方案

针对上述问题，项目团队提供了以下技术解决方案：

输入预处理：在用户音频前拼接3秒空白音频，确保模型完成问候环节
音频对齐处理：对输入音频进行零填充，使其长度为1920样本的整数倍
后处理优化：在实际评测中发现，在音频后部额外添加空白段能获得更好的响应效果

实现细节

具体实现时，需要修改Moshi模型的服务端处理逻辑。关键代码修改包括：

# 音频预处理示例
def encode(audio_path):
    wav = load_wav(audio_path, sample_rate)
    current_length = wav.shape[-1]
    target_length = ((current_length - 1) // 1920 + 1) * 1920
    if current_length < target_length:
        padding = target_length - current_length
        wav = torch.nn.functional.pad(wav, (0, padding))
    wav = torch.nn.functional.pad(wav, (1920 * 50, 1920 * 100))
    wav = wav.unsqueeze(0)  # [B, T]