Determined AI v0.38.0-EE 版本深度解析与关键技术解读

2025-06-16 10:53:50作者：仰钰奇

Determined is an open-source machine learning platform that simplifies distributed training, hyperparameter tuning, experiment tracking, and resource management. Works with PyTorch and TensorFlow.

项目地址：https://gitcode.com/gh_mirrors/de/determined

项目概述

Determined AI 是一个开源的机器学习平台，专注于简化大规模深度学习模型的训练和管理流程。该平台提供了从实验跟踪、超参数优化到资源管理的全套解决方案，特别适合企业级AI团队进行复杂的模型开发工作。

核心功能增强

1. 任务配置策略系统升级

本次版本对任务配置策略系统进行了全面优化，新增了多项关键功能：

全局配置策略API支持，允许管理员通过GET接口获取系统范围内的配置策略
工作负载类型枚举和配置结构体，为不同类型的任务提供更精细的控制
实验约束检查机制，确保实验配置在创建和更新时符合预设策略
优先级限制检查，防止任务优先级超出系统允许范围

这些改进使得平台在多租户环境下能够更好地执行资源配额管理和任务调度策略。

2. 日志信号监控系统

v0.38.0-EE 引入了创新的日志信号监控功能：

支持从数据库读取和显示日志信号
提供实验配置级别的日志监控设置
实现日志保留天数的主配置同步机制
优化全局日志保留策略的应用逻辑

这一系统使得用户能够更有效地监控长期运行的训练任务，及时发现异常情况。

3. 安全与权限管理强化

在安全方面，本版本做出了多项重要改进：

新增"编辑项目受限"角色，细化项目编辑权限控制
改进SSO集成，支持可配置的POSIX声明字段
增强RBAC支持，包括Webhook的权限控制
优化用户会话管理，增加访问令牌生命周期配置

这些特性显著提升了企业级环境下的安全管控能力。

技术架构优化

1. 资源管理改进

引入预emption超时配置选项，提高资源利用率
优化检查点GC策略，确保TensorBoard资源及时释放
改进混合slot类型资源池的处理逻辑
增强资源配额显示功能，向查看者角色开放配额信息

2. 存储系统增强

新增数据库快照功能到Helm chart
优化系统指标表的级联删除设置
改进检查点存储策略的配置验证
增强云存储检查点的恢复能力

3. 性能优化措施

减少初始页面加载时间
优化试验比较视图的性能
改进指标名称API，消除重复ID
优化批量操作的数据处理效率

开发者体验提升

1. API改进

新增运行中心API对象，重构API架构
实现Webhook URL更新支持
增强元数据过滤能力，支持数组类型列
改进日志搜索API，支持正则表达式

2. CLI工具增强

新增配置策略管理命令
改进工作区成员列表功能
优化slot容量相关命令的帮助信息
增强令牌创建CLI的默认过期处理

3. 测试与可靠性

引入可移植测试框架和可扩展性测试
增加端到端批量操作测试
改进认证测试覆盖
优化Kubernetes集成测试稳定性

部署与运维改进

1. Helm Chart增强

支持主服务注解配置
新增集群名称配置选项
改进默认命名空间注释
优化值文件结构和文档

2. 平台兼容性

初步支持Kubernetes上的ROCm
修复Kubernetes旧版本兼容性问题
更新Torch版本至2.3.0
修复Intel Mac上的Torch版本问题

3. 监控与告警

实现工作负载告警功能
改进Webhook自定义触发器
增强任务状态监控
优化历史分配数据导出

总结

Determined AI v0.38.0-EE版本在任务策略管理、日志监控、安全控制和性能优化等方面带来了显著改进。该版本特别强化了企业级环境所需的多租户管理、资源控制和系统可靠性功能，同时通过API和CLI的增强提升了开发者体验。对于需要大规模深度学习训练平台的团队来说，这个版本提供了更强大、更稳定的基础设施支持。

determined

Determined is an open-source machine learning platform that simplifies distributed training, hyperparameter tuning, experiment tracking, and resource management. Works with PyTorch and TensorFlow.

项目地址：https://gitcode.com/gh_mirrors/de/determined

登录后查看全文