PostgresML 安装过程中 torch 依赖问题的分析与解决

2025-06-03 08:36:46作者：虞亚竹Luna

问题背景

在使用 PostgresML 进行自托管安装时，用户遇到了 Python 依赖库 torch 的导入错误。具体表现为在执行 pgml.transform 函数时，系统抛出 ImportError: cannot import name 'Tensor' from 'torch' 异常。这个问题发生在 Rocky Linux 9.3 系统上，虽然基础功能如加载数据集可以正常工作，但在使用 transformers 相关功能时出现了问题。

问题分析

错误表现

核心错误信息显示无法从 torch 模块导入 Tensor 类
系统环境为 Python 3.9.18，torch 版本不匹配
后续还出现了 CUDA 相关的库文件缺失问题

根本原因

经过排查，问题的根本原因在于 torch 库的版本不兼容。PostgresML 对 torch 有特定的版本要求，而系统中安装的 torch 版本可能过高或过低，导致核心类无法正确导入。

解决方案

步骤一：修正 torch 版本

通过以下命令可以解决 Tensor 导入问题：

pip3 uninstall torch
pip3 install torch==2.0.1

这个操作将 torch 回退到已知兼容的 2.0.1 版本，确保 PostgresML 能够正确导入所需的 Tensor 类。

步骤二：处理 CUDA 依赖

在解决 torch 版本问题后，可能会遇到 CUDA 相关的依赖问题，表现为：

OSError: libcufft.so.10: cannot open shared object file: No such file or directory

这表明系统缺少 NVIDIA CUDA 运行时库。解决方法包括：

确认系统已安装正确版本的 NVIDIA 驱动
安装对应版本的 CUDA Toolkit
或者安装不需要 CUDA 的 CPU 版本 torch

对于不需要 GPU 加速的环境，可以安装 CPU-only 版本的 torch：

pip3 install torch==2.0.1+cpu -f https://download.pytorch.org/whl/torch_stable.html

最佳实践建议

严格遵循平台特定依赖：PostgresML 为不同平台提供了特定的依赖文件（如 requirements.linux.txt），应优先使用这些文件而非通用的 requirements.txt
虚拟环境隔离：为 PostgresML 创建独立的 Python 虚拟环境，避免与其他项目的依赖冲突
版本锁定：在生产环境中，建议精确锁定所有依赖版本，确保环境一致性
依赖验证：安装完成后，使用 SELECT pgml.validate_python_dependencies(); 验证关键依赖版本

总结

PostgresML 作为将机器学习能力集成到 PostgreSQL 中的强大扩展，其安装过程可能会遇到 Python 依赖的兼容性问题。特别是 torch 这样的复杂依赖项，版本管理尤为重要。通过本文提供的解决方案，用户可以顺利解决 torch 导入错误和 CUDA 依赖问题，确保 PostgresML 的 transform 等高级功能正常运行。对于生产环境，建议建立完善的依赖管理机制，避免类似问题的发生。

postgresml

Postgres with GPUs for ML/AI apps.

项目地址：https://gitcode.com/gh_mirrors/po/postgresml

登录后查看全文