PaddleNLP微调Llama2-7B模型时XPU设备上的bfloat16类型支持问题分析

2025-05-18 08:11:31作者：秋阔奎Evelyn

问题背景

在使用PaddleNLP框架对Llama2-7B模型进行微调时，用户遇到了一个关于XPU设备上bfloat16数据类型支持的问题。具体表现为在评估阶段调用argmax操作时，系统报错提示XPU设备不支持bfloat16数据类型。

错误现象

当运行微调脚本时，程序在完成两步训练后进入评估阶段时抛出异常。核心错误信息显示：

RuntimeError: (NotFound) The kernel with key (XPU, Undefined(AnyLayout), bfloat16) of kernel `argmax` is not registered and fail to fallback to CPU one. Selected wrong DataType `bfloat16`. Paddle support following DataTypes: float32, int32, float16.

这表明XPU设备当前不支持bfloat16数据类型的argmax操作。

原因分析

数据类型支持限制：XPU设备对bfloat16数据类型的支持可能不完整，特别是对于argmax这类操作。
评估阶段特殊处理：在评估阶段，代码尝试对logits执行argmax操作以获取预测结果，而logits在bf16模式下是bfloat16类型。
框架版本问题：可能使用的PaddlePaddle版本对XPU设备的bfloat16支持还不够完善。

解决方案

针对这一问题，有以下几种可行的解决方案：

方案一：升级PaddlePaddle版本

建议升级到最新版本的PaddlePaddle，特别是针对XPU设备优化的版本，可能已经增加了对bfloat16数据类型的完整支持。

方案二：修改评估逻辑

在评估阶段，可以先将bfloat16类型的张量转换为float32后再执行argmax操作。具体修改utils.py中的prediction_step函数：

# 修改前
return (loss, logits.argmax(axis=-1, keepdim=True), labels)

# 修改后
return (loss, logits.astype('float32').argmax(axis=-1, keepdim=True), labels)