CML项目中使用AWS EC2作为训练节点的权限配置指南

2025-06-15 02:07:14作者：邓越浪Henry

CML是一个开源的机器学习模型管理框架，用于简化机器学习模型的训练、评估和部署。它提供了一系列的API和工具，可以帮助开发者快速构建和部署机器学习模型，并提供了高效的GPU加速支持。

项目地址：https://gitcode.com/gh_mirrors/cm/cml

在使用Iterative CML项目时，许多开发者选择在AWS EC2上运行机器学习训练任务。本文将详细介绍如何正确配置AWS IAM权限，确保训练完成后EC2实例能够被自动终止，避免资源浪费。

常见问题现象

当开发者使用CML Runner启动AWS EC2实例进行训练时，经常会遇到实例无法自动终止的问题。这通常表现为训练任务完成后，EC2实例仍然保持运行状态，导致不必要的费用产生。

问题根源分析

经过深入调查，这类问题通常源于AWS IAM权限配置不当。CML Runner需要在训练完成后有足够的权限来终止EC2实例。如果权限不足，终止操作会静默失败，而不会给出明确的错误提示。

解决方案

1. 基本权限配置

正确的IAM策略应该包含对EC2服务的完整操作权限，同时通过条件限制只对特定标签的实例生效。以下是推荐的权限策略示例：

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "FullPermissionOnCMLInstance",
            "Effect": "Allow",
            "Action": [
                "ec2:*"
            ],
            "Resource": "arn:aws:ec2:*:*:instance/*",
            "Condition": {
                "StringLike": {
                    "aws:ResourceTag/Name": "cml-*"
                }
            }
        }
    ]
}

2. 关键配置说明

Action: 授予对EC2服务的所有操作权限
Resource: 限制只对实例资源生效
Condition: 通过标签条件限制只对名称以"cml-"开头的实例生效

3. 调试技巧

如果遇到实例无法终止的问题，可以通过以下步骤进行调试：

SSH登录到EC2实例
检查systemd服务日志：journalctl -u cml.service -b
查看是否有权限相关的错误信息
在AWS CloudTrail中检查失败的API调用记录

4. 运行模式选择

CML Runner提供两种运行模式：

--single模式：任务完成后立即终止实例
--reuse-idle模式：实例会保持运行一段时间等待新任务

根据实际需求选择合适的运行模式，对于一次性任务推荐使用--single模式。

最佳实践建议

始终为CML Runner使用的IAM角色配置最小必要权限
为EC2实例添加明确的标签，便于权限管理和资源追踪
在生产环境中，建议定期检查CloudTrail日志，监控权限使用情况
考虑设置AWS Budget告警，防止因配置错误导致意外费用

通过正确配置AWS IAM权限，开发者可以确保CML Runner能够高效地管理EC2资源，在训练任务完成后自动释放计算资源，实现成本优化。

CML是一个开源的机器学习模型管理框架，用于简化机器学习模型的训练、评估和部署。它提供了一系列的API和工具，可以帮助开发者快速构建和部署机器学习模型，并提供了高效的GPU加速支持。

项目地址：https://gitcode.com/gh_mirrors/cm/cml

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。