MGM项目推理服务启动失败问题分析与解决方案

2025-06-25 14:25:49作者：贡沫苏Truman

问题背景

在使用MGM(Multi-Granularity Modeling)项目进行模型推理时，用户遇到了服务启动失败的问题。具体表现为在执行模型工作器启动命令时，系统报告无法连接到控制器服务，错误提示为连接被拒绝(Connection refused)。

错误现象分析

当用户执行以下命令启动模型工作器时：

CUDA_VISIBLE_DEVICES=0,1 python -m mgm.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path /root/autodl-tmp/MGM/model_zoo/Your_prefer_name

系统返回的错误信息表明：

工作器尝试向控制器注册时失败
连接目标地址为localhost:10000
错误类型为连接被拒绝(Connection refused)

问题根源

这种错误通常由以下几个原因导致：

控制器服务未启动：模型工作器需要先连接到控制器服务才能正常运行，如果控制器服务没有启动，工作器自然无法连接。
端口冲突或被占用：指定的10000端口可能被其他应用程序占用，或者防火墙阻止了该端口的连接。
启动顺序错误：分布式服务通常有严格的启动顺序要求，控制器服务需要先于工作器启动。
网络配置问题：localhost环回地址配置异常，导致本地服务间无法通信。

解决方案

根据用户后续的反馈，该问题可以通过以下方式解决：

分步启动服务

正确的做法是将服务启动分为两个独立的步骤：

首先启动控制器服务：

python -m mgm.serve.controller --host 0.0.0.0 --port 10000

然后启动模型工作器：

CUDA_VISIBLE_DEVICES=0,1 python -m mgm.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path /path/to/model