AWS Deep Learning Containers发布PyTorch 2.3.0训练镜像

2025-07-07 10:38:28作者：齐冠琰

deep-learning-containers

One stop shop for running AI/ML on AWS.

项目地址：https://gitcode.com/gh_mirrors/de/deep-learning-containers

AWS Deep Learning Containers（DLC）是亚马逊云科技提供的一套预配置的深度学习容器镜像，这些镜像经过优化，可以直接在AWS云平台上运行。DLC包含了主流深度学习框架的官方版本，并针对AWS基础设施进行了性能优化，同时预装了常用的工具和库，大大简化了深度学习环境的搭建过程。

近日，AWS Deep Learning Containers项目发布了基于PyTorch 2.3.0框架的新版本训练镜像。这些镜像支持Python 3.11环境，分别提供了CPU和GPU两个版本，适用于不同的计算需求场景。

镜像版本详情

本次发布的PyTorch训练镜像包含两个主要版本：

CPU版本：基于Ubuntu 20.04操作系统，镜像标签为2.3.0-cpu-py311-ubuntu20.04-sagemaker。这个版本适合不需要GPU加速的训练任务，或者在没有GPU资源的开发环境中使用。
GPU版本：同样基于Ubuntu 20.04操作系统，但配备了CUDA 12.1工具包，镜像标签为2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker。这个版本充分利用了NVIDIA GPU的并行计算能力，适合大规模深度学习模型的训练。

关键技术组件

这两个镜像都预装了PyTorch 2.3.0框架及其配套工具链：

核心框架：torch 2.3.0、torchvision 0.18.0和torchaudio 2.3.0
数据处理：numpy 1.26.4、pandas 2.2.2、opencv-python 4.9.0.80
机器学习工具：scikit-learn 1.5.0、scipy 1.13.1
AWS集成：sagemaker 2.221.1、boto3 1.34.112、awscli 1.32.112
开发工具：Cython 3.0.10、pybind11 2.12.0

GPU版本额外包含了针对CUDA优化的组件，如apex 0.1和smdistributed-dataparallel 2.3.0，这些工具可以显著提升GPU集群上的分布式训练效率。

环境配置特点

这些镜像在环境配置上有几个值得注意的特点：

Python 3.11支持：采用了最新的Python稳定版本，提供了更好的性能和语言特性支持。
Ubuntu 20.04基础：基于长期支持的Ubuntu LTS版本，确保了系统的稳定性和安全性。
完整的开发环境：预装了从基础工具（如emacs）到深度学习专用库的完整工具链。
SageMaker优化：专门针对AWS SageMaker服务进行了优化配置，可以无缝集成到SageMaker训练工作流中。

使用场景建议

这些预构建的DLC镜像特别适合以下场景：

快速原型开发：研究人员可以立即开始模型开发，无需花费时间配置环境。
生产训练任务：在SageMaker上运行大规模训练作业时，使用这些优化过的镜像可以获得更好的性能和稳定性。
团队协作：确保团队成员使用相同的环境配置，避免"在我机器上能运行"的问题。
CI/CD流水线：在自动化测试和部署流程中使用标准化的容器镜像。

AWS Deep Learning Containers的持续更新，反映了PyTorch生态系统的快速发展，也为深度学习从业者提供了即用型的高质量工具。用户可以根据自己的计算需求选择合适的镜像版本，快速开展深度学习项目。

deep-learning-containers

One stop shop for running AI/ML on AWS.

项目地址：https://gitcode.com/gh_mirrors/de/deep-learning-containers

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

昇腾LLM分布式训练框架