GPU共享调度器扩展器使用指南

2026-01-16 09:51:51作者：邬祺芯Juliet

**探索高效GPU资源管理新境界：GPushare-Scheduler-Extender** 在AI与数据科学的浪潮中，Kubernetes已成为容器编排的事实标准。然而，如何在多任务间高效共享宝贵的NVIDIA GPU资源，成为了一大挑战。阿里云社区响应这一需求，推出了GPushare-Scheduler-Extender——一项创新解决方案，使GPU能在多个Pod间灵活共享，极大提升利用率。适配Kubernetes 1.11及以上版本，利用调度器扩展和设备插件机制，让您的集群轻松实现GPU精细化管理。无需繁琐设置，兼容NVIDIA驱动及Docker环境，一键部署，开启你的高效计算之旅。不仅如此，我们提供详尽设计文档、安装指南与用户手册，即便是开发自定义功能或进行深度集成也毫无障碍。加入我们，共同探索未来云原生下的GPU资源共享新纪元！

项目地址：https://gitcode.com/gh_mirrors/gp/gpushare-scheduler-extender

项目介绍

GPU共享调度器扩展器（GPU Sharing Scheduler Extender）是一个为Kubernetes集群设计的开源项目，旨在提高Nvidia GPU的利用率。通过允许在同一Nvidia GPU设备上部署多个共享GPU的Pod，该项目解决了如何在Pod之间共享GPU的问题。它基于调度器扩展器和设备插件机制，使得在Kubernetes环境中复用这一解决方案变得容易。

项目快速启动

前提条件

Kubernetes 1.11+
Golang 1.19+
NVIDIA驱动版本 >= 361.93
Nvidia-docker版本 > 2.0
Docker配置为使用Nvidia作为默认运行时

安装步骤

克隆项目仓库

git clone https://github.com/AliyunContainerService/gpushare-scheduler-extender.git
cd gpushare-scheduler-extender

构建镜像
```
make build-image
```

部署设备插件

git clone https://github.com/AliyunContainerService/gpushare-device-plugin.git
cd gpushare-device-plugin
docker build -t cheyang/gpushare-device-plugin .

安装Kubectl扩展

mkdir -p $GOPATH/src/github.com/AliyunContainerService
cd $GOPATH/src/github.com/AliyunContainerService
git clone https://github.com/AliyunContainerService/gpushare-device-plugin.git
cd gpushare-device-plugin
go build -o $GOPATH/bin/kubectl-inspect-gpushare-v2 cmd/inspect/*