ParadeDB v0.10.0 版本发布：全文搜索的重大升级与突破

2025-05-31 22:33:27作者：管翌锬

ParadeDB 团队近日发布了 v0.10.0 版本，这是对全文搜索功能的一次重大升级。本次更新不仅带来了多项性能改进和新功能，还包含了一些重要的不兼容变更，需要用户在升级时特别注意。

升级注意事项

升级到 v0.10.0 版本需要执行特殊操作：首先使用 DROP EXTENSION pg_search CASCADE; 命令删除现有扩展，然后重新创建 CREATE EXTENSION pg_search;。需要注意的是，这种升级方式会同时删除所有依赖于 pg_search 扩展或 paradedb 模式的对象，包括现有的 BM25 索引。

这种破坏性升级的主要原因有两个：首先，团队改进了索引文件的磁盘存储位置，解决了不同数据库间索引可能互相覆盖的问题；其次，优化了内部文档 ID 字段(ctid)的表示方式，使索引体积更小。开发团队表示这将是最后一次导致磁盘不兼容的版本更新。

重大变更解析

索引存储位置重构

新版本彻底重构了 Tantivy 索引文件的存储路径结构。现在索引文件会按照数据库 ID、索引 ID 和文件编号进行组织存储。这种改变不仅解决了数据库间索引冲突的问题，还使 pg_search 能够更好地处理 create_bm25 和 drop_bm25 过程中的事务。

内部 ID 优化

团队优化了 ctid 值的存储方式，使其更加紧凑。在大规模索引(超过10GB)上，这一改变可节省约2%的磁盘空间，且索引越大节省效果越明显。不过这也意味着新版本无法兼容旧版本的索引格式。

索引清理机制

v0.10.0 改进了索引清理机制。现在执行 drop_bm25、DROP INDEX 甚至 DROP SCHEMA 和 DROP TABLE 时，系统会自动删除对应的物理索引文件，解决了旧版本可能遗留垃圾文件的问题。

对象依赖关系

新版本在 SCHEMA 和 INDEX 之间建立了双向依赖关系。当其中一个对象被删除时，相关联的对象也会被自动清理，确保数据库结构的完整性。

单表单索引限制

从 v0.10.0 开始，每个表只能创建一个 BM25 索引。这一改变解决了旧版本中查询时可能无法正确使用指定索引的问题。

稳定性提升

JSON 字段支持

修复了包含 json 类型列的表在索引时可能导致的崩溃问题，现在这类字段可以安全地用于索引创建。

后台工作进程稳定性

改进了负责索引写入的后台工作进程的健壮性，解决了其在某些异常情况下可能提前退出并导致客户端崩溃的问题。

事务处理优化

优化了 COMMIT 和 ABORT 的处理逻辑，确保在事务回滚后能够正确提交。同时修复了 v0.9.3 中引入的 VACUUM 无法清理死元组的问题。

锁机制改进

将内部锁结构迁移到 parking_lot mutexes，提高了异常情况下的稳定性，并改善了用户可见的错误信息传递。

新功能亮点

查询计划器集成

新版本大幅改进了与 PostgreSQL 查询计划器的集成，支持更多查询计划类型并提供更准确的成本估算。特别值得注意的是 @@@ 操作符现已正式支持，在 WHERE 子句中使用该操作符可以显著提升查询性能，特别是在不需要评分或排序的场景下。

分词配置灵活化

v0.10.0 提供了更细致的分词规则控制能力，包括词干提取(stemmer)和小写转换(lowercase)等过滤器现在可以按字段进行配置。

查询功能增强

新增了 fuzzy_phrase 查询支持，并引入了 lenient 和 conjunction 等配置选项，为用户提供更丰富的查询控制手段。

PostGIS 空间数据支持

ParadeDB 的 Docker 镜像现在内置了对 PostGIS 空间数据库扩展的支持，为地理空间数据应用提供了便利。

文档与测试改进

本次更新包含了大量文档重构工作，新增了教程和概念说明等内容，使新用户更容易上手。在持续集成方面，团队增加了 Helm chart 测试，改进了错误报告机制，并实现了 pgrx 版本的动态确定。

总结

ParadeDB v0.10.0 是一次重要的里程碑式更新，虽然升级过程需要特别注意，但带来的性能改进、稳定性提升和新功能使其成为值得升级的版本。特别是查询计划器的深度集成和灵活的分词配置，将为全文搜索应用带来显著的性能提升和更丰富的功能选择。

paradedb

PostgreSQL for Search

项目地址：https://gitcode.com/gh_mirrors/pa/paradedb

登录后查看全文

ParadeDB v0.10.0 版本发布：全文搜索的重大升级与突破

升级注意事项

重大变更解析

索引存储位置重构

内部 ID 优化

索引清理机制

对象依赖关系

单表单索引限制

稳定性提升

JSON 字段支持

后台工作进程稳定性

事务处理优化

锁机制改进

新功能亮点

查询计划器集成

分词配置灵活化

查询功能增强

PostGIS 空间数据支持

文档与测试改进

总结

最新内容推荐

项目优选

ParadeDB v0.10.0 版本发布：全文搜索的重大升级与突破

升级注意事项

重大变更解析

索引存储位置重构

内部 ID 优化

索引清理机制

对象依赖关系

单表单索引限制

稳定性提升

JSON 字段支持

后台工作进程稳定性

事务处理优化

锁机制改进

新功能亮点

查询计划器集成

分词配置灵活化

查询功能增强

PostGIS 空间数据支持

文档与测试改进

总结

相关内容推荐

最新内容推荐

项目优选