text-generation-webui项目中Llama-3 70B模型生成NaN问题的分析与解决

2025-05-02 19:13:01作者：贡沫苏Truman

text-generation-webui

A Gradio web UI for Large Language Models. Supports transformers, GPTQ, AWQ, EXL2, llama.cpp (GGUF), Llama models.

项目地址：https://gitcode.com/GitHub_Trending/te/text-generation-webui

问题现象

在使用text-generation-webui项目加载Llama-3 70B模型的EXL2量化版本时，部分用户遇到了生成过程中出现NaN（非数字）错误的问题。具体表现为：

使用LoneStriker量化的模型版本时，任何采样方式都会导致NaN错误
使用turboderp量化的模型版本时，Web UI界面可以工作，但通过API调用仍会出现NaN错误
错误信息显示"probability tensor contains either inf, nan or element < 0"
关闭采样（do_sample=False）可以正常生成文本

问题排查过程

经过深入排查，发现该问题与以下几个因素相关：

硬件配置：在多GPU环境下，特别是混合使用带有NVLink连接和不带NVLink连接的GPU时，容易出现此问题。例如，使用3块RTX 3090显卡（其中两块通过NVLink连接，第三块独立）时，如果将模型分配到带有和不带NVLink的GPU组合上，就会触发此错误。
CUDA驱动版本：在CUDA驱动版本545.x中存在相关bug，可能导致张量计算异常。
采样参数设置：使用某些高级采样技术（如min_P采样、mirostat等）更容易触发此问题。

解决方案

针对这一问题，可以采取以下解决方案：

统一GPU配置：确保模型加载到相同连接方式的GPU上。例如，仅使用通过NVLink连接的GPU组，或者全部使用独立GPU。
更新CUDA驱动：将CUDA驱动升级到最新版本（545.x之后的版本），这可以解决驱动层面的计算错误。
调整采样参数：
- 暂时关闭高级采样功能
- 简化采样参数组合
- 逐步测试各采样参数的影响
模型配置调整：某些情况下，在模型配置中添加pad token可以缓解问题。

技术原理分析

该问题的根本原因在于多GPU环境下张量计算的同步问题。当模型被分配到不同连接方式的GPU上时：

计算图被分割到不同特性的GPU上
各GPU间的数据同步可能不完全
导致概率分布计算出现异常值（NaN或inf）
采样时multinomial函数检测到非法值而报错

NVLink提供了高带宽、低延迟的GPU间连接，当部分GPU使用NVLink而其他不使用时，系统可能无法正确处理这种混合连接模式下的数据同步。

预防措施

为避免类似问题，建议：

在多GPU环境中保持一致的连接方式
定期更新CUDA驱动和工具链
新模型加载时先进行简单测试
关注量化模型的兼容性说明

总结

Llama-3 70B等大模型在多GPU环境下的部署可能遇到各种边缘情况。本次NaN问题的解决过程展示了硬件配置、驱动版本和软件参数之间的复杂交互。通过系统性的排查和验证，最终定位并解决了这一棘手问题，为类似场景提供了有价值的参考。

text-generation-webui

A Gradio web UI for Large Language Models. Supports transformers, GPTQ, AWQ, EXL2, llama.cpp (GGUF), Llama models.

项目地址：https://gitcode.com/GitHub_Trending/te/text-generation-webui

登录后查看全文

热门内容推荐

最新内容推荐

项目优选

收起

openHiTLS-examples

本仓将为广大高校开发者提供开源实践和创新开发平台，收集和展示openHiTLS示例代码及创新应用，欢迎大家投稿，让全世界看到您的精巧密码实现设计，也让更多人通过您的优秀成果，理解、喜爱上密码技术。

deepin linux kernel

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

ohos_react_native

React Native鸿蒙化仓库

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

一款跨平台的 Markdown AI 笔记软件，致力于使用 AI 建立记录和写作的桥梁。