Valkey项目中哈希对象内存优化问题的技术分析

2025-05-10 13:53:58作者：殷蕙予

背景介绍

在Valkey数据库的最新开发中，团队对哈希对象(HashObject)的内部实现进行了重要改进，将原本使用的字典(dict)结构替换为哈希表(hashtable)结构。这一变更在提升性能的同时，也引入了一个关于内存使用的技术细节问题，值得深入探讨。

问题本质

在新的哈希表实现中，哈希表条目(hashTableEntry)直接嵌入了SDS(简单动态字符串)字段。这种设计在特定场景下会导致额外的内存消耗，主要原因在于SDS头部大小的不一致性。

技术细节分析

SDS头部大小差异

SDS根据字符串长度使用不同的头部结构：

极短字符串(长度<32)：使用1字节头部(sds5)
短字符串：使用3字节头部(sds8)
更长字符串：使用更大头部

内存消耗差异的来源

哈希表字段的SDS可能来自三种不同途径：

命令参数：来自解析后的命令参数，这些SDS通常来自字符串对象(stringObject)，强制使用3字节头部(sds8)
列表包转换：当从列表包(listpack)转换为哈希表时，创建的SDS会使用最小头部(1字节的sds5)
模块接口：通过VM_HashSet等模块接口创建的RAW字符串对象，也会使用最小头部

具体问题表现

在hashTypeCreateEntry函数中创建哈希表条目时，会按照提供的SDS表示形式嵌入字段。当字段源自命令参数时，会额外消耗2字节头部空间。

举例说明：

哈希1：在hash_max_listpack_entries配置为0时创建，添加10个小字段
哈希2：在hash_max_listpack_entries配置为9时创建，添加10个小字段

理论上，添加完10个元素后，两个哈希表应显示相同内存消耗。但实际上，哈希1会多消耗18字节内存(10个字段×每个多2字节-2字节节省)。

影响评估

虽然这一问题不会导致整体内存利用率下降(因为新的哈希表实现总体上更节省内存)，但在特定场景下会产生不一致的内存表现，特别是在列表包转换后。

解决方案展望

这一问题预计将在以下两个相关工作项中得到解决：

对SDS头部结构的进一步优化
哈希表实现的持续改进

技术建议

对于开发者而言，理解这一问题的关键在于：

认识不同来源的SDS可能有不同的头部结构
了解哈希表实现中嵌入式SDS的内存使用特性
在性能优化和内存使用之间寻求平衡

这一问题虽然影响不大，但反映了数据库内核开发中内存管理精细化的挑战，也展示了Valkey团队对性能优化的持续追求。

valkey

A new project to resume development on the formerly open-source Redis project. We're calling it Valkey, like a Valkyrie.

项目地址：https://gitcode.com/GitHub_Trending/va/valkey

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。