CogVideo项目中的safetensors加载问题分析与解决方案

2025-05-21 07:18:38作者：秋阔奎Evelyn

text and image to video generation: CogVideoX (2024) and CogVideo (ICLR 2023)

项目地址：https://gitcode.com/GitHub_Trending/co/CogVideo

问题背景

在使用CogVideo项目进行视频生成时，部分用户遇到了模型文件加载失败的问题。具体表现为在加载T5文本编码器模型时，系统抛出"OSError: No such device (os error 19)"错误。这个问题主要出现在H100 GPU和CUDA 12.4环境下，使用transformers 4.46.1版本时。

错误分析

该错误通常发生在尝试加载safetensors格式的模型文件时。safetensors是一种安全的张量存储格式，相比传统的PyTorch bin文件，它提供了更快的加载速度和更好的安全性。错误信息表明系统无法找到指定的设备，这可能是由于以下几个原因造成的：

文件系统权限问题
模型文件损坏或不完整
CUDA环境配置问题
硬件兼容性问题

解决方案

经过验证，以下步骤可以有效解决该问题：

检查模型文件完整性：确保所有必要的模型文件都已正确下载并放置在指定目录中。关键文件包括：
- model-00001-of-00002.safetensors
- model-00002-of-00002.safetensors
- model.safetensors.index.json
- 配置文件(config.json等)
验证transformers版本：虽然transformers 4.46.1版本理论上应该支持safetensors加载，但在某些特定环境下可能存在兼容性问题。可以尝试降级到4.45版本进行测试。
检查CUDA环境：确保CUDA驱动版本与PyTorch版本兼容。H100 GPU需要特定版本的CUDA支持。
文件系统检查：如果使用网络存储或特定云平台，可能存在文件系统访问限制。建议将模型文件复制到本地存储进行测试。

最佳实践

为了避免类似问题，建议用户在部署CogVideo项目时遵循以下最佳实践：

环境隔离：使用虚拟环境或容器技术隔离项目依赖，确保环境一致性。
分步验证：在完整运行前，先单独测试模型加载功能，快速定位问题。
日志记录：详细记录加载过程中的日志信息，便于问题诊断。
硬件兼容性检查：在使用新型号GPU前，确认框架和模型对该硬件的支持情况。

总结

CogVideo作为先进的视频生成模型，其部署过程中可能会遇到各种环境相关的问题。通过系统性的排查和验证，大多数加载问题都可以得到解决。对于H100等新一代GPU，建议密切关注框架和驱动更新，以获得最佳兼容性。

text and image to video generation: CogVideoX (2024) and CogVideo (ICLR 2023)

项目地址：https://gitcode.com/GitHub_Trending/co/CogVideo

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统