Determined AI 长时实验认证失效问题分析与解决方案

2025-06-26 09:49:24作者：郜逊炳

Determined is an open-source machine learning platform that simplifies distributed training, hyperparameter tuning, experiment tracking, and resource management. Works with PyTorch and TensorFlow.

项目地址：https://gitcode.com/gh_mirrors/de/determined

问题背景

在机器学习平台Determined AI的使用过程中，用户报告了一个关键性问题：当实验运行时间超过一周后，系统会出现认证失效的错误，导致实验意外终止。这个问题严重影响了长期训练任务的稳定性，特别是在进行大规模模型训练时。

错误现象

系统日志显示，实验在运行约一周后会出现以下两类典型错误：

训练过程中的认证失效：当尝试报告训练进度时，系统抛出UnauthenticatedException异常，提示用户需要重新登录。
自动重试失败：在系统尝试自动恢复实验时，同样因为认证问题无法下载任务上下文目录，导致恢复失败。

根本原因分析

经过技术团队调查，发现这个问题与系统的会话管理机制有关：

会话过期时间：系统默认设置了7天的会话有效期，这是导致一周后认证失效的直接原因。
长期运行任务的特殊性：机器学习训练任务往往需要持续运行数周甚至数月，现有的会话管理机制没有充分考虑这种使用场景。
认证令牌刷新机制缺失：系统缺乏在长时间运行任务中自动刷新认证令牌的机制。

技术解决方案

Determined AI团队通过以下方式解决了这个问题：

延长会话有效期：将会话的有效期从7天延长到更合理的时间范围。
实现令牌自动刷新：在任务运行期间，系统会自动检测并刷新认证令牌，确保长期运行的实验不会因认证问题中断。
优化错误处理：改进了认证失败时的错误处理逻辑，提供更清晰的错误信息和恢复建议。

最佳实践建议

对于使用Determined AI进行长期训练的用户，建议：

及时升级：确保使用0.37.0或更高版本，该版本已包含此问题的修复。
监控任务状态：即使问题已修复，仍建议定期检查长期运行任务的状态。
合理设置检查点：配置适当的检查点间隔，以便在意外情况下能够快速恢复训练进度。

总结

Determined AI团队快速响应并解决了这个影响长期实验稳定性的关键问题。通过优化会话管理机制，确保了系统能够可靠地支持长时间运行的机器学习训练任务。这一改进显著提升了平台的稳定性和用户体验，特别是对于那些需要进行大规模模型训练的研究人员和工程师。

Determined is an open-source machine learning platform that simplifies distributed training, hyperparameter tuning, experiment tracking, and resource management. Works with PyTorch and TensorFlow.

项目地址：https://gitcode.com/gh_mirrors/de/determined

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用