Valkey项目中哈希对象字段内存优化分析

2025-05-10 10:12:32作者：余洋婵Anita

背景介绍

在Valkey项目中，哈希对象(HashObject)是一种常用的数据结构，用于存储键值对集合。近期项目中对哈希对象的内部实现进行了重构，将底层数据结构从字典(dict)改为哈希表(hashtable)，这一改动虽然提高了内存使用效率，但也引入了一个关于字符串存储的内存使用问题。

问题本质

在新的哈希表实现中，哈希对象的字段名(field)采用了嵌入式SDS(Simple Dynamic String)的存储方式。SDS是Valkey中用于表示字符串的自定义数据结构，根据字符串长度不同，SDS有多种头部格式(sds5、sds8等)，头部长度从1字节到3字节不等。

问题在于，不同来源的字符串字段在嵌入哈希表时，可能会使用不同长度的SDS头部格式，导致相同内容的字符串占用不同大小的内存空间：

命令参数来源：来自客户端命令的字符串会使用sds8格式(3字节头部)
listpack转换：从listpack转换而来的字符串会使用最小头部格式(如sds5，1字节头部)
模块接口：通过模块API创建的字符串也会使用最小头部格式

技术细节分析

在哈希表条目创建时(hashTypeCreateEntry函数)，会直接将传入的SDS字符串嵌入到哈希表条目结构中。这意味着：

如果字符串来自命令参数(使用sds8)，即使是很短的字符串也会占用额外的2字节头部空间
如果字符串来自listpack转换(使用sds5)，则只占用1字节头部空间

这种不一致性会导致以下现象：

两个内容完全相同的哈希对象，可能因为创建方式不同而显示不同的内存使用量
特别是当哈希对象从listpack转换为哈希表时，内存使用量会出现"异常"增加

解决方案探讨

目前项目团队认为这个问题影响较小，计划在后续优化工作中解决。可能的解决方案方向包括：

统一SDS头部格式：在嵌入前将sds8转换为sds5格式，但这需要考虑SDS头部信息的使用场景
优化EMBSTR编码：允许EMBSTR编码的字符串对象直接使用sds5格式，但需要处理相关兼容性问题
全面内存管理改进：结合其他内存优化工作一并解决

值得注意的是，这个问题不仅存在于哈希对象的字段存储中，也存在于服务器对象(serverObject)的键存储中，因此需要更全面的解决方案。

总结

Valkey项目在数据结构优化过程中发现的这个内存使用问题，反映了系统底层细节对整体性能的影响。虽然当前问题的影响有限，但它提醒我们在数据结构设计时需要全面考虑各种使用场景和内存使用模式。随着项目的持续优化，这类问题将得到更完善的解决。

placeholderkv

A new project to resume development on the formerly open-source Redis project. Name is placeholder.

项目地址：https://gitcode.com/GitHub_Trending/pl/placeholderkv

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理