Lance存储格式演进：从v1到v2的架构改进

2026-02-06 04:14:39作者：蔡丛锟

Open Lakehouse Format for Multimodal AI. Convert from Parquet in 2 lines of code for 100x faster random access, vector index, and data versioning. Compatible with Pandas, DuckDB, Polars, Pyarrow, and PyTorch with more integrations coming..

项目地址：https://gitcode.com/GitHub_Trending/la/lance

Lance存储格式作为GitHub推荐项目精选中的重要组件，经历了从v1到v2的重大架构改进。这一演进不仅优化了数据存储结构，还显著提升了性能和灵活性，使其更适合处理大规模结构化数据。本文将深入探讨这一演进过程中的关键变化和技术细节。

架构概览：从v1到v2的转变

Lance存储格式的演进是为了应对日益增长的数据管理需求。v1版本作为基础架构，奠定了数据存储的基本框架，而v2版本则在其基础上进行了全面升级，引入了新的设计理念和技术实现。

v1架构特点

v1版本的Lance存储格式采用了较为传统的列存储结构，主要特点包括：

简单的文件布局，包含数据页、元数据和页表
基础的编码方式，如PLAIN、VAR_BINARY和DICTIONARY
有限的元数据支持，主要描述字段类型和编码信息

相关代码实现可参考：protos/file.proto

v2架构革新

v2版本在v1的基础上进行了全面重构，引入了多项关键改进：

更灵活的文件布局，支持更大规模的数据存储
增强的编码系统，支持多种压缩和编码方式
改进的元数据管理，支持更丰富的统计信息和索引
更好的扩展性，支持自定义编码和扩展类型

详细的v2文件格式规范可参见：protos/file2.proto

核心改进：从文件布局到编码系统

文件布局优化

v2版本对文件布局进行了重大调整，使其更加灵活和高效。新的布局结构如下：

├──────────────────────────────────┤
│ Data Pages                       │
│   Data Buffer 0*                 │
│   ...                            │
│   Data Buffer BN*                │
├──────────────────────────────────┤
│ Column Metadatas                 │
│ |A| Column 0 Metadata*           │
│     Column 1 Metadata*           │
│     ...                          │
│     Column CN Metadata*          │
├──────────────────────────────────┤
│ Column Metadata Offset Table     │
│ |B| Column 0 Metadata Position*  │
│     Column 0 Metadata Size       │
│     ...                          │
│     Column CN Metadata Position  │
│     Column CN Metadata Size      │
├──────────────────────────────────┤
│ Global Buffers Offset Table      │
│ |C| Global Buffer 0 Position*    │
│     Global Buffer 0 Size         │
│     ...                          │
│     Global Buffer GN Position    │
│     Global Buffer GN Size        │
├──────────────────────────────────┤
│ Footer                           │
│ A u64: Offset to column meta 0   │
│ B u64: Offset to CMO table       │
│ C u64: Offset to GBO table       │
│   u32: Number of global bufs     │
│   u32: Number of columns         │
│   u16: Major version             │
│   u16: Minor version             │
│   "LANC"                         │
├──────────────────────────────────┤

这种布局的主要优势在于：