SurrealDB 新增字符串相似度计算功能的技术演进

2025-05-06 02:15:01作者：龚格成

A scalable, distributed, collaborative, document-graph database, for the realtime web

项目地址：https://gitcode.com/GitHub_Trending/su/surrealdb

在数据库系统中，字符串相似度计算是一个非常重要的功能，它广泛应用于数据清洗、模糊查询、记录匹配等场景。SurrealDB作为一个新兴的数据库系统，近期在其功能演进中加入了多种字符串距离和相似度计算能力，这标志着其在文本处理能力上的重要提升。

字符串相似度算法本质上是通过数学方法量化两个字符串之间的相似程度。常见的算法包括：

编辑距离类算法（如Levenshtein距离）
字符匹配类算法（如Hamming距离）
相似度评分算法（如Jaro-Winkler相似度）

在技术实现层面，SurrealDB最初采用了自主实现的方式。开发者首先实现了Levenshtein和Hamming这两种相对基础的算法，这两种算法不需要引入外部依赖，实现起来也较为直接。Levenshtein距离计算的是将一个字符串转换成另一个字符串所需的最少单字符编辑操作次数，而Hamming距离则计算两个等长字符串在相同位置上不同字符的数量。

然而，当需要实现更复杂的相似度算法（如Jaro-Winkler）时，自主实现的成本显著增加。Jaro-Winkler算法不仅需要考虑字符匹配，还要处理字符转置、前缀权重等复杂因素，实现起来既容易出错又难以优化。

经过技术评估，SurrealDB团队决定引入strsim这个经过充分验证的Rust库。这个选择基于几个关键考量：

该库维护良好，测试覆盖全面
无额外依赖，保持系统轻量
MIT许可协议与项目兼容
在Rust生态中已被广泛使用（下载量超过2.78亿次）

通过引入strsim，SurrealDB不仅获得了Jaro-Winkler等高级算法的现成实现，还为未来可能需要的其他字符串相似度算法提供了扩展基础。这种技术决策体现了开源项目在自主实现与生态整合之间的平衡智慧：对于基础功能保持自主可控，对于复杂功能则善用社区成熟方案。

这一功能增强使得SurrealDB在文本处理场景中更具竞争力，用户现在可以在数据库层面直接完成复杂的文本匹配和相似度计算，而不必将数据导出到外部系统处理。这既提高了效率，也简化了应用架构。

A scalable, distributed, collaborative, document-graph database, for the realtime web

项目地址：https://gitcode.com/GitHub_Trending/su/surrealdb

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

昇腾LLM分布式训练框架

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started