探索Iceberg：新一代大数据表格式

2024-09-19 07:22:57作者：董宙帆

项目介绍

Iceberg是一个全新的表格式，专为存储大规模、缓慢变化的数据表而设计。它旨在改进Hive、Presto和Spark等现有大数据处理引擎中的标准表布局。Iceberg的核心思想是通过跟踪表中的单个数据文件，而不是目录，来实现更高效的数据管理和查询。

Iceberg由Netflix开发，并已捐赠给Apache软件基金会，目前正处于活跃开发阶段。项目的主要目标是提供一种更高效、更可靠的表格式，以解决现有大数据表格式中的一些关键问题，如文件列表、文件重命名和元数据管理等。

项目技术分析

核心模块

Iceberg项目由多个模块组成，每个模块都有其特定的功能：

iceberg-common: 包含其他模块使用的实用工具类。
iceberg-api: 提供Iceberg的公共API。
iceberg-core: 实现Iceberg API，并支持Avro数据文件，是处理引擎应依赖的核心模块。
iceberg-parquet: 可选模块，用于处理基于Parquet文件的表。
iceberg-orc: 可选模块，用于处理基于ORC文件的表（实验性）。
iceberg-hive: 实现基于Hive Metastore的Iceberg表。

处理引擎支持

Iceberg还提供了对多个处理引擎的支持：

iceberg-spark: 实现Spark的Datasource V2 API。
iceberg-data: 用于从JVM应用程序读取Iceberg表的客户端库。
iceberg-pig: 实现Pig的LoadFunc API。
iceberg-presto-runtime: 生成用于Presto与Iceberg表集成的阴影运行时JAR。

兼容性

Iceberg的Spark集成支持以下版本的Spark：

Iceberg版本	Spark版本
0.2.0+	2.3.0
0.3.0+	2.3.2

项目及技术应用场景

Iceberg适用于需要高效管理和查询大规模数据表的场景。其设计解决了现有大数据表格式中的多个痛点，特别适合以下应用场景：

大规模数据仓库: 适用于需要处理PB级数据的场景，提供高效的查询和数据管理能力。
实时数据分析: 通过高效的文件管理和元数据跟踪，支持实时数据分析和查询。
数据湖: 作为数据湖的基础表格式，提供可靠的数据存储和管理能力。

项目特点

设计优势

Iceberg的设计带来了多项显著优势：

快照隔离: 读取器始终使用一致的表快照，无需锁定，所有表更新都是原子的。
O(1) RPC调用: 读取快照仅需O(1)次RPC调用，大大减少了查询规划的时间。
分布式规划: 文件修剪和谓词下推分布到各个作业中，消除了元数据的瓶颈。
版本历史和回滚: 保留表快照历史，支持数据回滚，确保数据质量。
细粒度分区: 通过分布式规划和O(1) RPC调用，支持更细粒度的分区。
安全的文件级操作: 通过支持原子更改，Iceberg支持新的用例，如安全地压缩小文件和安全地追加延迟数据。

为什么需要新的表格式？

现有表格式存在多个问题：

缺乏规范: 不同实现处理情况不一致，如Hive和Spark的桶使用不同的哈希函数。
元数据仅跟踪分区: 文件在分区内的发现通过列表分区路径，导致查询规划昂贵。
依赖文件重命名: 大多数输出提交者依赖重命名操作来实现保证，但在S3中重命名是数据复制操作。

其他设计目标

Iceberg还改进了以下方面：

模式演变: 通过列ID支持添加、删除和重命名列。
可靠类型: 使用一组核心类型，确保跨数据格式的兼容性。
指标: 存储数据文件的优化指标，提高作业规划效率。
不可见分区: 分区作为表配置内置，无需额外分区谓词即可规划高效查询。
未修改的分区数据: 存储分区数据时不进行转义，保持数据原样。
可移植规范: 表不绑定于Java，Iceberg有清晰的规范供其他实现使用。

结语

Iceberg作为新一代大数据表格式，通过其独特的设计和强大的功能，为大规模数据管理和查询提供了全新的解决方案。无论是在数据仓库、实时数据分析还是数据湖中，Iceberg都能显著提升数据处理的效率和可靠性。如果你正在寻找一种更高效、更可靠的表格式，Iceberg无疑是一个值得尝试的选择。

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

458

450

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Python

152

250

探索Iceberg：新一代大数据表格式

项目介绍

项目技术分析

核心模块

处理引擎支持

兼容性

项目及技术应用场景

项目特点

设计优势

为什么需要新的表格式？

其他设计目标

结语

相关内容推荐

热门内容推荐

项目优选