解决Swift项目分布式推理中的AssertionError问题

2025-05-31 13:04:09作者：俞予舒Fleming

Use PEFT or Full-parameter to CPT/SFT/DPO/GRPO 600+ LLMs (Qwen3.6, DeepSeek-R1, GLM-5.1, InternLM3, Llama4, ...) and 300+ MLLMs (Qwen3-VL, Qwen3-Omni, InternVL3.5, Ovis2.5, GLM4.5v, Gemma4, Llava, Phi4, ...) (AAAI 2025).

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

在使用Swift项目进行模型训练和推理时，用户遇到了一个典型的分布式推理错误。本文将详细分析问题原因并提供解决方案。

问题现象

用户在训练阶段使用8个NPU设备进行分布式训练，训练过程正常完成。但在推理阶段执行以下命令时出现了错误：

MAX_PIXELS=802816 swift infer --adapters /data/output/zhongda/v19-20250424-175905/checkpoint-300 --stream False --temperature 0.1 --repetition_penalty 1.2 --top_p 0.95 --max_new_tokens 512

错误信息显示为AssertionError，具体报错位置在infer_args.py文件的_init_ddp方法中，断言条件是assert not self.eval_human and not self.stream。

问题分析

这个错误的核心原因在于分布式推理的配置问题。Swift项目在推理时默认会尝试使用分布式数据并行(DDP)模式，但交互式推理场景下(如人工评估或流式输出)与DDP模式存在冲突。

具体来说：

训练时使用了8个NPU设备(nproc_per_node=8)，环境可能保留了相关配置
推理时没有明确指定单进程运行，导致系统尝试使用分布式模式
交互式推理场景下无法有效协调多个进程的输入输出

解决方案

方法一：关闭分布式模式

最直接的解决方案是确保推理时使用单进程模式：

# 明确设置使用1个进程
NPROC_PER_NODE=1 swift infer --adapters /path/to/checkpoint ...

或者通过环境变量设置：

export NPROC_PER_NODE=1
swift infer --adapters /path/to/checkpoint ...

方法二：提供验证数据集

另一种解决方案是提供格式化的验证数据集，使推理过程可以批量进行。验证数据集应采用以下JSON格式：

{
  "messages": [
    {"role": "user", "content": "<image>请描述这张图片"},
    {"role": "assistant", "content": "两侧胸廓对称..."}
  ],
  "image": ["/path/to/image.png"]
}

方法三：检查环境变量

确保没有残留的分布式训练环境变量影响推理过程：

# 检查并清理相关环境变量
unset NPROC_PER_NODE
unset ASCEND_VISIBLE_DEVICES
unset HCCL_CHECK_TIMEOUT

最佳实践建议

训练与推理环境隔离：建议为训练和推理创建独立的环境，避免配置冲突
明确指定进程数：无论使用多少设备训练，推理时都应明确指定NPROC_PER_NODE=1
日志记录：保留完整的推理日志，便于问题排查
参数验证：在关键业务场景中，建议先进行小规模测试验证参数配置

总结

Swift项目中的分布式推理问题通常源于训练和推理环境配置的不一致。通过明确指定单进程模式或提供格式化数据集，可以有效解决这类AssertionError问题。理解分布式计算的基本原理有助于快速定位和解决类似问题。

swift

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

394

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989

解决Swift项目分布式推理中的AssertionError问题

问题现象

问题分析

解决方案

方法一：关闭分布式模式

方法二：提供验证数据集

方法三：检查环境变量

最佳实践建议

总结

热门内容推荐

最新内容推荐

项目优选

解决Swift项目分布式推理中的AssertionError问题

问题现象

问题分析

解决方案

方法一：关闭分布式模式

方法二：提供验证数据集

方法三：检查环境变量

最佳实践建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选