KTransformers项目中KExpertsCPU模块的FP16精度问题分析与解决方案

2025-05-16 11:07:53作者：姚月梅Lane

A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations

项目地址：https://gitcode.com/gh_mirrors/ktr/ktransformers

问题背景

在KTransformers项目实现DeepSeek-V2-Lite-Chat模型的推理过程中，发现了一个重要的精度问题：当使用A100-80G 8卡环境运行模型时，在BF16精度下模型能够正常输出结果，但在FP16或FP32精度下却会出现输出为空的情况。

问题定位

经过技术团队深入分析，发现问题出在KExpertsCPU模块的实现上。具体表现为：

当模型第一层不使用非共享专家时，各精度下的计算结果基本一致
但在使用非共享专家的情况下，FP16与BF16的输入虽然相近，输出却存在显著差异
即使在FP16模式下使用BF16的输入数据，输出结果仍然与BF16模式下的结果差异很大

根本原因

技术团队发现问题的核心在于KExpertsCPU模块中数据类型处理的硬编码问题：

当前实现中，GPU向CPU传输数据时强制使用了BF16数据类型
在ktransformers/operators/experts.py文件的KExpertsCPU.load函数中，MOEConfig的最后一个参数被硬编码为30(对应BF16)
KExpertsCPU.output_cpu的数据类型设置也存在不一致问题

解决方案

针对这一问题，技术团队提出了明确的修复方案：

修改MOEConfig的最后一个参数，从30(bf16)调整为1(fp16)
同步调整KExpertsCPU.output_cpu的数据类型设置
确保GPU到CPU的数据传输能够正确识别和保持原始精度设置

技术影响

这一问题的修复将带来以下改进：

使模型能够正确支持FP16精度模式下的推理
提高模型在不同精度设置下的结果一致性
增强框架对不同硬件配置的适应性

总结

KTransformers项目中的这一精度问题展示了混合精度计算中数据类型一致性的重要性。通过精确控制各计算环节的数据类型转换，可以确保模型在不同精度设置下都能获得稳定可靠的推理结果。技术团队已经将该修复纳入下一个版本更新计划，将为用户提供更稳定、更灵活的多精度支持。

A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations

项目地址：https://gitcode.com/gh_mirrors/ktr/ktransformers

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库