kube-openmpi 使用指南
2025-04-18 00:16:48作者:段琳惟
1. 项目介绍
kube-openmpi 是一个开源项目,它提供了一个基于 Kubernetes 的解决方案,用于在 Kubernetes 集群上运行 Open MPI 任务。项目主要包含两部分内容:
- Kubernetes 配置模板(由 Helm 支持),用于在 Kubernetes 集群上运行 Open MPI 任务。
- 基础 Docker 镜像,用户可以基于这些镜像构建自己的 Docker 镜像。目前提供基于 Ubuntu 16.04 的镜像,同时也提供了支持 CUDA 的镜像,以便于处理分布式深度学习工作负载。
2. 项目快速启动
在开始之前,确保已经安装了以下工具:
kubectl:用于与 Kubernetes 集群进行通信的命令行工具。helm:Kubernetes 的包管理工具。
生成 SSH 密钥并编辑配置
首先,生成一个临时的 SSH 密钥:
./gen-ssh-key.sh
然后,编辑 values.yaml 文件,配置您的项目信息:
$EDITOR values.yaml
部署
设置集群名称和命名空间变量:
MPI_CLUSTER_NAME=__CHANGE_ME__
KUBE_NAMESPACE=__CHANGE_ME_
然后,使用 Helm 模板创建 Kubernetes 对象:
helm template chart --namespace $KUBE_NAMESPACE --name $MPI_CLUSTER_NAME -f values.yaml -f ssh-key.yaml | kubectl -n $KUBE_NAMESPACE create -f -
运行
等待主节点 $MPI_CLUSTER_NAME-master 准备就绪:
kubectl get -n $KUBE_NAMESPACE po $MPI_CLUSTER_NAME-master
然后,您可以通过 kubectl exec 运行 mpiexec:
kubectl -n $KUBE_NAMESPACE exec -it $MPI_CLUSTER_NAME-master -- mpiexec --allow-run-as-root \
--hostfile /kube-openmpi/generated/hostfile \
--display-map -n 4 -npernode 1 \
sh -c 'echo $(hostname):hello'
扩缩集群
MPI workers 以 StatefulSets 形式存在,因此可以轻松地进行扩缩:
# 将工作节点从 4 个缩减到 3 个
kubectl -n $KUBE_NAMESPACE scale statefulsets $MPI_CLUSTER_NAME-worker --replicas=3
清理
当不再需要集群时,可以使用以下命令进行清理:
helm template chart --namespace $KUBE_NAMESPACE --name $MPI_CLUSTER_NAME -f values.yaml -f ssh-key.yaml | kubectl -n $KUBE_NAMESPACE delete -f -
3. 应用案例和最佳实践
- 使用自定义 Docker 镜像:在
values.yaml中的image部分指定您的自定义镜像。 - 从私有仓库拉取镜像:创建一个类型为
docker-registry的 KubernetesSecret,然后在values.yaml中引用该 Secret。 - 从 GitHub 注入代码:在
values.yaml中配置appCodesToSync部分,以同步 GitHub 上的代码到容器中。 - 以非 root 用户运行集群:在
values.yaml中为mpiMaster和mpiWorkers配置securityContext,指定运行用户和组。
4. 典型生态项目
目前,kube-openmpi 主要支持与分布式深度学习相关的项目,如 ChainerMN。用户可以基于提供的镜像和配置,轻松地在 Kubernetes 集群上部署和运行这些项目。
登录后查看全文
热门项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0190
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0113
Step-3.7-FlashStep-3.7-Flash是一个拥有 1980 亿参数的稀疏混合专家(MoE)视觉语言模型,由 1960 亿参数的语言主干网络和 18 亿参数的视觉编码器组合而成,具备原生图像理解能力。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
omega-aiOmega-AI:基于java打造的深度学习框架,帮助你快速搭建神经网络,实现模型推理与训练,引擎支持自动求导,多线程与GPU运算,GPU支持CUDA,CUDNN。Java04
llm-universe本项目是一个面向小白开发者的大模型应用开发教程,在线阅读地址:https://datawhalechina.github.io/llm-universe/Jupyter Notebook08
热门内容推荐
最新内容推荐
项目优选
收起
deepin linux kernel
C
32
16
暂无描述
Dockerfile
762
4.95 K
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
1.79 K
190
暂无简介
Dart
1 K
259
Ascend Extension for PyTorch
Python
717
867
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
855
1.91 K
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.07 K
1.09 K
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.73 K
1.02 K
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
675
1.32 K
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
455
438