LanceDB v0.15.0 版本发布：向量数据库的重大升级

2025-06-09 10:21:12作者：虞亚竹Luna

LanceDB 是一个高性能的开源向量数据库，专为大规模机器学习应用设计。它提供了高效的向量搜索能力，支持多种索引类型和查询方式，能够满足现代AI应用对快速相似性搜索的需求。本文将详细介绍最新发布的 LanceDB v0.15.0 版本带来的重要更新和改进。

核心架构升级

本次发布的 v0.15.0 版本对 LanceDB 的核心架构进行了多项重要升级：

底层引擎升级：版本升级到了 lance 0.22.0，带来了性能提升和稳定性改进。底层存储引擎的优化使得向量查询和索引构建更加高效。
IVF_FLAT 索引支持：新增了对 IVF_FLAT 索引类型的支持，这种索引类型在远程表上也能使用。IVF_FLAT 是倒排文件与平面量化的结合，适合大规模数据集，能够显著提升搜索速度。
多向量类型支持：引入了对 multivector 类型的支持，这使得单个数据项可以包含多个向量表示，为更复杂的搜索场景提供了可能。

查询功能增强

查询功能是本版本的重点改进领域：

距离阈值搜索：新增了基于距离阈值的向量搜索能力。用户现在可以设置最大距离阈值，只返回相似度超过特定阈值的结果，这在需要精确控制搜索结果质量的场景中非常有用。
混合搜索优化：改进了混合搜索（hybrid search）功能，现在在 Node 和 Rust SDK 中都能使用。混合搜索结合了向量搜索和关键词搜索的优势，提供更精准的搜索结果。
预过滤默认策略：同步 Python API 现在默认使用预过滤（prefiltering）而非后过滤（postfiltering），这一改变显著提升了查询性能，特别是在有过滤条件的情况下。

开发者体验改进

针对开发者体验，v0.15.0 版本做了多项优化：

异步API增强：Python 异步 API 新增了 to_polars 方法和 flatten 功能，使得数据处理更加方便。同时支持了对非混合查询的重新排序（rerank）操作。
子模式操作：现在支持插入和更新子模式（subschemas），这为处理嵌套数据结构提供了更大的灵活性。
数据集配置暴露：开发者现在可以直接访问和配置数据集的相关参数，提供了更细粒度的控制能力。

性能与稳定性

除了功能增强外，本版本还包含多项性能优化和稳定性改进：

索引构建优化：特别是针对 IVF_FLAT 索引的构建过程进行了优化，提高了大规模数据集上的索引构建速度。
查询执行优化：通过改进查询计划和执行策略，提升了复杂查询的性能。
错误修复：解决了多项已知问题，包括列选择失败问题和 VoyageAI 嵌入 API 的问题，提高了系统的整体稳定性。

总结

LanceDB v0.15.0 是一个功能丰富的重要版本，在核心架构、查询能力和开发者体验等方面都有显著提升。特别是对 IVF_FLAT 索引的支持和距离阈值搜索功能的加入，使得 LanceDB 能够更好地满足生产环境中对高性能向量搜索的需求。对于正在使用或考虑采用向量数据库的开发者来说，这个版本值得关注和升级。

lancedb

Developer-friendly OSS embedded retrieval library for multimodal AI. Search More; Manage Less.

项目地址：https://gitcode.com/gh_mirrors/la/lancedb

登录后查看全文