LLaMA-Factory在Ascend 310P推理卡上的兼容性问题分析

2025-05-01 10:22:58作者：尤辰城Agatha

问题背景

LLaMA-Factory作为一个流行的开源大模型微调框架，在Ascend 910B系列AI加速卡上表现良好，但在Ascend 310P推理卡上却遇到了兼容性问题。310P是华为推出的专用推理加速卡，其硬件架构和算子支持与训练卡910B存在显著差异。

多卡运行问题：当不指定设备时，框架能正常启动但推理时报错"System Direct Memory Access (DMA) hardware execution error"，这表明310P可能不支持多卡并行推理。
数据类型不兼容：当指定单卡运行时，出现"call aclnnCast failed"错误，提示DT_BFLOAT16类型不被支持。虽然用户已在模型配置中将数据类型改为float16，但问题依然存在。
环境依赖复杂：NPU生态对软件版本要求严格，不同型号加速卡需要匹配特定版本的驱动和算子库，而现有文档多以910B为参考。

310P作为专用推理卡，其设计优化方向与训练卡不同：

Ascend 310P作为专用推理卡，其硬件特性和软件支持与训练卡存在差异，导致LLaMA-Factory这类以训练为主的框架在迁移时遇到兼容性问题。目前建议采用官方优化方案或等待生态进一步成熟，而非强行适配。这也反映出AI硬件生态碎片化带来的挑战，需要框架开发者与硬件厂商更紧密的合作来解决。

登录后查看全文