TonY：分布式深度学习训练框架

2025-05-15 10:00:52作者：秋阔奎Evelyn

项目地址：https://gitcode.com/gh_mirrors/ton/TonY

1. 项目介绍

TonY（TensorFlow on YARN）是一个开源项目，由LinkedIn开发，旨在将TensorFlow与YARN（Yet Another Resource Negotiator）集群管理器集成，以实现高效的分布式深度学习训练。通过TonY，用户可以在YARN集群上轻松部署和运行TensorFlow作业，从而充分利用集群资源，提高训练效率。

2. 项目快速启动

以下是使用TonY进行分布式深度学习训练的基本步骤：

安装依赖

确保您的系统中已安装以下依赖：

Python 3.x
TensorFlow
YARN集群

克隆项目

git clone https://github.com/linkedin/TonY.git
cd TonY

构建项目

mvn clean install -DskipTests

启动训练

假设您已经有了一个TensorFlow训练脚本train.py，您可以按照以下方式启动分布式训练：

python3 launch_tony.py \
  --master yarn \
  --num ps=1 \
  --num worker=2 \
  --memory 4096 \
  --gpus 1 \
  --script train.py \
  --queue default

参数说明：

--master yarn：指定使用YARN作为集群管理器。
--num ps=1：设置参数服务器数量为1。
--num worker=2：设置工作节点数量为2。
--memory 4096：为每个节点分配4096MB内存。
--gpus 1：为每个节点分配1个GPU（如果支持）。
--script train.py：指定TensorFlow训练脚本。
--queue default：指定YARN队列。

3. 应用案例和最佳实践

案例1：在YARN集群上运行大规模的TensorFlow模型训练任务，例如训练图像识别模型。
最佳实践：确保在训练过程中监控资源使用情况，以便及时调整资源分配，提高训练效率。

4. 典型生态项目

TensorFlow：TonY的深度学习框架，用于构建和训练各种深度学习模型。
YARN：集群资源管理器，负责分配和调度计算资源。
Apache Spark：可以与TonY集成，用于分布式数据处理和机器学习任务。

通过TonY，开发者和研究人员可以更高效地利用分布式资源进行深度学习训练，加速模型开发和优化过程。

TonY

项目地址：https://gitcode.com/gh_mirrors/ton/TonY

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781