ktransformers项目中的NUMA配置与内存优化实践

2025-05-16 07:15:18作者：霍妲思

A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations

项目地址：https://gitcode.com/gh_mirrors/ktr/ktransformers

在大型语言模型推理场景中，内存管理是一个关键的性能优化点。本文将以ktranformers项目为例，深入分析NUMA架构对内存占用的影响及优化方案。

NUMA架构对内存占用的影响

NUMA(Non-Uniform Memory Access)是现代多处理器系统中的一种内存架构设计，它将处理器和内存划分为多个节点(node)，每个节点内的内存访问速度最快。在双路EPYC 9655这样的高端服务器平台上，默认配置下可能会为每个内存通道创建一个NUMA节点，导致系统出现24个NUMA节点的情况。

在ktranformers的moe.cpp实现中，内存管理策略会根据numa_num_configured_nodes系统调用返回的NUMA节点数量进行内存分配。这种设计会导致每个NUMA节点都保存一份模型参数的拷贝，当NUMA节点数量较多时，内存占用会呈线性增长。例如在24个NUMA节点的系统上，内存消耗可能达到预期的24倍。

优化方案与实践

BIOS层优化

最直接的解决方案是在BIOS层面调整NUMA配置：

进入服务器BIOS设置界面
查找NUMA相关配置选项(通常位于"Advanced"或"Processor"菜单下)
将NUMA模式从"每通道"(Per Channel)改为"每插槽"(Per Socket)
保存设置并重启系统

这种调整可以将NUMA节点数量从24个(每内存通道一个)减少到2个(每CPU插槽一个)，显著降低内存占用。

软件层优化

对于无法修改BIOS设置的环境，ktranformers项目团队正在开发基于TP(Tensor Parallelism)的优化方案。这种方案可以避免NUMA带来的内存倍增问题，但需要等待后续版本发布。

最佳实践建议

在部署ktranformers前，先通过numactl --hardware命令检查系统的NUMA配置
对于内存敏感的应用场景，优先考虑BIOS层的NUMA配置优化
关注项目更新，及时获取TP优化等新特性
在调试阶段，可以使用numactl -N X -m Y命令将进程绑定到特定NUMA节点，但要注意这不能解决内存拷贝问题

通过合理的NUMA配置，可以在保证性能的同时，显著降低大型语言模型推理时的内存需求，使系统资源得到更高效的利用。

A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations

项目地址：https://gitcode.com/gh_mirrors/ktr/ktransformers

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

flutter_flutter

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

ohos_react_native

React Native鸿蒙化仓库

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力