FlagEmbedding项目中指定GPU运行的实现方法

2025-05-25 15:49:19作者：凌朦慧Richard

在深度学习和大模型训练过程中，合理分配GPU资源是提高效率和避免资源冲突的关键。本文将详细介绍如何在FlagEmbedding项目中指定特定的GPU设备运行程序。

环境变量控制法

最直接有效的方法是通过设置CUDA_VISIBLE_DEVICES环境变量来控制程序可见的GPU设备。这种方法具有以下优势：

实现简单，只需一行命令或代码
适用于各种深度学习框架
不影响原有代码逻辑

命令行设置方式

在启动Python脚本时，可以直接在命令前添加环境变量设置：

CUDA_VISIBLE_DEVICES=2,3 python your_script.py

这条命令将使程序只能看到编号为2和3的GPU设备，其他设备对程序不可见。

代码内设置方式

如果需要在Python代码内部实现GPU设备的选择，可以在程序初始化部分添加：

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"

需要注意的是，这段代码应该在导入任何深度学习框架（如PyTorch、TensorFlow等）之前执行，以确保框架能够正确识别可见的设备。

多GPU场景下的应用

当系统配备多块GPU时，合理分配设备尤为重要：

训练任务隔离：可以避免不同训练任务争抢同一GPU资源
性能优化：将计算密集型任务分配到性能更好的GPU上
资源预留：为实时服务预留专用GPU，确保服务质量

注意事项

GPU编号通常从0开始，使用nvidia-smi命令可以查看当前系统的GPU编号和状态
设置环境变量后，程序内部看到的GPU编号会重新从0开始排列
在分布式训练场景中，需要结合框架特定的API进行更精细的控制
某些框架可能需要在设置环境变量后调用特定函数来生效

通过合理使用GPU设备指定技术，可以显著提高FlagEmbedding等深度学习项目的资源利用率和运行效率。

FlagEmbedding

Dense Retrieval and Retrieval-augmented LLMs

项目地址：https://gitcode.com/GitHub_Trending/fl/FlagEmbedding

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch