CogVideo项目中FP16模式下的T5模型精度问题分析与解决方案

2025-05-21 01:29:12作者：袁立春Spencer

text and image to video generation: CogVideoX (2024) and CogVideo (ICLR 2023)

项目地址：https://gitcode.com/GitHub_Trending/co/CogVideo

问题背景

在CogVideo项目运行过程中，当使用FP16精度模式时，用户遇到了一个典型的类型不匹配错误："RuntimeError: expected scalar type Float but found Half"。这个问题发生在T5文本编码器的前向传播过程中，具体是在自注意力模块的第二层处理时触发的。

问题根源分析

通过深入调试和代码追踪，我们发现问题的核心在于T5模型内部的权重矩阵计算。在FP16模式下，T5模型的某些特定模块（特别是T5DenseActDense和T5DenseGatedActDense）会强制将计算结果转换为FP32精度，而后续的层归一化操作（FusedRMSNorm）却期望输入保持FP16精度。

具体表现为：

模型初始化时各层权重均为FP16
经过"wo"（权重输出）模块后，隐藏状态被转换为FP32
当这些FP32数据传递到下一层的层归一化模块时，与FP16的归一化参数产生冲突

技术细节

这种现象源于HuggingFace Transformers库中的一个设计选择：某些计算密集型操作会被显式保留在FP32精度下进行，以提高数值稳定性。在T5模型的实现中，密集连接层被标记为_keep_in_fp32_modules，导致它们在FP16模式下仍然以FP32精度执行计算。

解决方案

针对这个问题，我们提供以下几种解决方案：

强制使用FP16模式：修改T5模型代码，确保所有操作都在FP16下执行，避免精度转换
显式类型转换：在密集连接层后添加手动类型转换，将输出重新转换为FP16
使用BF16模式：BF16浮点格式具有更好的数值稳定性，可以避免这类精度转换问题
全局FP32模式：虽然会牺牲一些性能，但可以确保数值稳定性

最佳实践建议

对于大多数用户，我们推荐采用BF16模式作为最佳解决方案，因为：

相比FP16具有更好的数值稳定性
不会像FP32那样显著增加显存占用
现代GPU对BF16有良好的硬件支持

如果必须使用FP16模式，建议在模型初始化后检查各层的数据类型一致性，确保没有意外的精度转换发生。

总结

CogVideo项目中遇到的这个精度问题揭示了深度学习框架中混合精度训练的一个常见挑战。理解模型内部各层的数据流和精度转换机制，对于解决类似问题至关重要。通过选择合适的精度策略或进行必要的代码调整，用户可以有效地规避这类问题，同时保持模型的性能和稳定性。

text and image to video generation: CogVideoX (2024) and CogVideo (ICLR 2023)

项目地址：https://gitcode.com/GitHub_Trending/co/CogVideo

登录后查看全文

项目优选

收起

deepin linux kernel

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

AI 将任意文档转换为精美可编辑的 PPTX 演示文稿 — 无需设计基础 | 包含 15 个案例、229 页内容

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。