Bloom过滤器库在大端序架构下的哈希计算问题分析

2025-06-30 15:08:11作者：卓炯娓

高效存储与查询，Bloom Filter加速你的数据检索！适用于内存受限场景，有效降低误报率。简单易用，支持动态添加元素，适用于海量数据成员校验。适配Go语言，广泛应用于Milvus、beego等项目。只需指定元素数量和期望误报率，即可创建过滤器。现在就加入GitHub加速计划，探索更多可能性！

项目地址：https://gitcode.com/gh_mirrors/blo/bloom

问题背景

Bloom过滤器是一种高效的概率型数据结构，用于快速判断一个元素是否可能存在于集合中。在Go语言的bits-and-blooms/bloom项目中，实现Bloom过滤器时使用了Murmur哈希算法来计算元素的哈希值。然而，该实现在大端序(Big-Endian)架构的主机上出现了哈希值计算错误的问题。

问题本质

哈希算法的正确性依赖于对数据字节序列的特定解释方式。Murmur哈希算法设计时假定输入数据采用小端序(Little-Endian)字节序处理。当前实现直接使用unsafe.Pointer将字节序列转换为uint64类型，这种方式在不同字节序的架构上会产生不同的结果：

在小端序架构上，这种转换方式恰好符合Murmur算法要求
在大端序架构上，字节顺序被反转，导致计算出的哈希值与预期不符

技术细节

问题主要出现在两个关键位置：

数据块处理：在digest128.bmix方法中，16字节的数据块被直接转换为两个uint64值
尾部处理：在sum256方法中，对不足16字节的尾部数据同样采用了直接类型转换

这两种情况都忽略了主机字节序的影响，导致在大端序架构上计算错误。

解决方案

正确的做法是显式指定使用小端序来解析字节序列。修改方案包括：

使用encoding/binary包的小端序解码方法
将字节序列显式转换为小端序的uint64/uint32值

具体修改如下：

// 替换直接类型转换
b := (*[16]byte)(unsafe.Pointer(&p[i*block_size]))
k1 := binary.LittleEndian.Uint64(b[:8])
k2 := binary.LittleEndian.Uint64(b[8:])

// 尾部处理同样修改
word1 := binary.LittleEndian.Uint64(tail[:8])
word2 := uint64(binary.LittleEndian.Uint32(tail[8:12]))

影响范围

此问题会影响所有运行在大端序架构系统上的应用，包括但不限于：

IBM Power架构服务器
某些ARM架构设备
传统SPARC系统

在这些系统上使用该Bloom过滤器库时，会导致元素查询的准确性出现问题。

最佳实践

在实现跨平台兼容的哈希算法时，开发者应当：

明确算法要求的字节序
避免直接依赖主机字节序的类型转换
使用标准库提供的字节序转换方法
在关键算法中添加字节序检查断言
为不同架构编写针对性的测试用例

总结

字节序问题是跨平台开发中常见的陷阱之一。对于加密哈希算法这类对数据表示敏感的组件，开发者必须特别注意数据解析的字节序问题。通过使用标准库提供的显式字节序转换方法，可以确保算法在所有架构上行为一致，这也是编写健壮、可移植代码的重要实践。

高效存储与查询，Bloom Filter加速你的数据检索！适用于内存受限场景，有效降低误报率。简单易用，支持动态添加元素，适用于海量数据成员校验。适配Go语言，广泛应用于Milvus、beego等项目。只需指定元素数量和期望误报率，即可创建过滤器。现在就加入GitHub加速计划，探索更多可能性！

项目地址：https://gitcode.com/gh_mirrors/blo/bloom

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理