【免费下载】 HAMi安装与配置完全指南

2026-01-20 02:40:00作者：郁楠烈Hubert

项目基础介绍及主要编程语言

项目名称: HAMi（异构人工智能计算虚拟化中间件）

项目地址: https://github.com/Project-HAMi/HAMi

主要编程语言: Go

HAMi，原名k8s-vGPU-scheduler，是一个旨在管理Kubernetes集群中异构AI计算设备的一体化解决方案。作为CNCF沙盒项目之一，它支持设备共享、内存控制、设备类型和UUID特定调度等关键特性，简化了在云原生环境中部署和利用如GPU这样的复杂硬件的过程。

关键技术和框架

Kubernetes (K8s): HAMi深度集成于Kubernetes，通过扩展其调度能力来管理和分配异构设备资源。
Webhooks: 实现统一的更改请求处理，以适应设备分配策略。
Device Plugins: 为不同的AI设备提供适配插件，实现资源的容器化管理。
Virtualization Techniques: 在容器内部采用不同技术虚拟化各种异构AI设备。

安装与配置步骤

准备工作

环境要求:
- NVIDIA Drivers: 至少版本440。
- Docker/NVIDIA-Docker: 版本大于2.0，并确保container runtime是nvidia。
- Kubernetes: 至少版本1.16。
- glibc: 版本2.17到2.30之间。
- Kernel Version: 至少3.10。
- Helm: 版本3.0以上。
安装NVIDIA Container Toolkit:
- 确保所有GPU节点已安装NVIDIA驱动器。
- 配置Docker或Containerd以使用nvidia-container-runtime作为默认运行时环境。

GPU节点配置示例

对于基于Debian的系统（包括Docker和containerd）:

echo 'deb https://nvidia.github.io/libnvidia-container/stable $(lsb_release -cs) main' | sudo tee /etc/apt/sources.list.d/nvidia-container-runtime.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit

修改容器运行时配置（Docker示例）:

{
  "default-runtime": "nvidia",
  "runtimes": {
    "nvidia": {
      "path": "/usr/bin/nvidia-container-runtime",
      "runtimeArgs": []
    }
  }
}

重启Docker服务后生效。

对于containerd，修改config.toml并重启containerd服务。

标签GPU节点

给GPU节点添加标签以便于HAMi调度:
```
kubectl label nodes <节点名> gpu=on
```

HAMi安装

添加Helm仓库:

helm repo add hami-charts https://project-hami.github.io/HAMi/

检查Kubernetes版本并安装HAMi（假设服务器版本为1.16.8）:

kubectl version
helm install hami hami-charts/hami --set scheduler.kubeScheduler.imageTag=v1.16.8 -n kube-system

验证安装:
```
kubectl get pods -n kube-system
```
确认vgpu-device-plugin和vgpu-scheduler都处于Running状态表示安装成功。

升级HAMi

卸载现有安装:
```
helm uninstall hami -n kube-system
```

更新仓库并重新安装最新版本:

helm repo update
helm install hami hami-charts/hami -n kube-system

至此，您已经完成了HAMi的安装和基本配置，可以开始利用HAMi在Kubernetes集群中高效地管理和分配异构AI计算资源了。

HAMi

Heterogeneous AI Computing Virtualization Middleware

项目地址：https://gitcode.com/GitHub_Trending/ha/HAMi

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

【免费下载】 HAMi安装与配置完全指南

项目基础介绍及主要编程语言

关键技术和框架

安装与配置步骤

准备工作

GPU节点配置示例

标签GPU节点

HAMi安装

升级HAMi

热门内容推荐

最新内容推荐

项目优选

【免费下载】 HAMi安装与配置完全指南

项目基础介绍及主要编程语言

关键技术和框架

安装与配置步骤

准备工作

GPU节点配置示例

标签GPU节点

HAMi安装

升级HAMi

相关内容推荐

热门内容推荐

最新内容推荐

项目优选