SageMaker Python SDK 中移除 distutils 依赖的技术解析

2025-07-04 19:15:23作者：戚魁泉Nursing

背景介绍

随着 Python 3.12 的发布，标准库中的 distutils 模块已被正式移除。这一变化影响了众多依赖该模块的 Python 项目，包括 AWS 的 SageMaker Python SDK。distutils 作为 Python 早期的打包工具，其功能已被 setuptools 取代多年，Python 官方也早已将其标记为废弃状态。

问题分析

在 SageMaker Python SDK 中，存在多处对 distutils 的直接调用，主要分布在以下几个场景：

本地模式执行环境检测（find_executable）
目录树复制操作（copy_tree）
字符串到布尔值的转换（strtobool）

这些调用在 Python 3.12 环境下会直接导致 ModuleNotFoundError 异常，因为新创建的虚拟环境中默认不再包含 setuptools（原 distutils 的维护版本）。

技术解决方案

1. 可执行文件查找的替代方案

原代码使用 distutils.spawn.find_executable 来定位系统可执行文件路径。现代 Python 中可以使用 shutil.which 作为替代，这是 Python 3.3+ 引入的标准库函数，功能完全相同且更加规范。

2. 目录树复制的优化方案

原代码注释中提到"distutils.dir_util.copy_tree 比半成品般的 shutil 实现好用得多"，这反映了历史遗留问题。实际上，自 Python 3.8 起，shutil.copytree 已支持 dirs_exist_ok 参数，能够完美处理目标目录已存在的情况，完全可替代 distutils 的实现。

3. 类型转换的简单替代

distutils.util.strtobool 用于将字符串转换为布尔值，这个简单功能完全可以自行实现，或者使用更现代的配置解析库如 configparser 或 argparse 的内置类型转换功能。

兼容性考虑

在实现这些替换时，需要注意：

Python 版本兼容性：确保新代码在 SDK 支持的所有 Python 版本上正常工作
行为一致性：新实现应与原 distutils 函数保持相同的行为和边界条件处理
性能影响：特别是目录复制操作，在大规模文件处理时需保证效率

对用户的影响

对于使用 SageMaker Python SDK 的用户，这一变更意味着：

Python 3.12 用户不再需要手动安装 setuptools 来获得 distutils 功能
所有用户代码中如果有依赖这些内部实现的部分，需要注意检查兼容性
新版本将减少一个间接依赖，提高部署的可靠性和可重复性

最佳实践建议

在等待官方修复的同时，用户可以采取以下临时方案：

在 Python 3.12 环境中显式安装 setuptools 包
对于关键业务系统，暂时使用 Python 3.11 等仍包含 distutils 的版本
在自己的项目中避免直接使用 distutils 相关功能，改用标准库替代方案

总结

Python 生态系统的持续演进要求项目定期评估和更新其依赖关系。SageMaker Python SDK 移除 distutils 依赖的工作不仅解决了 Python 3.12 兼容性问题，更是对代码质量的一次提升，减少了技术债务，为未来的维护和发展奠定了更好的基础。

sagemaker-python-sdk

A library for training and deploying machine learning models on Amazon SageMaker

项目地址：https://gitcode.com/gh_mirrors/sa/sagemaker-python-sdk

登录后查看全文