Apache Iceberg 开源项目安装与使用指南

2026-01-16 10:03:52作者：郜逊炳

目录结构及介绍

在克隆或下载了Apache Iceberg仓库之后，你会看到以下主要目录及其功能：

iceberg-common 包含了其他模块使用的工具类。
iceberg-api 提供公共API接口。
iceberg-core 实现Iceberg的核心功能并支持Avro数据文件，是大多数处理引擎依赖的基础模块。
iceberg-parquet 可选模块，用于操作基于Parquet文件的表格。
iceberg-arrow 可选模块，用于将Parquet数据读取到Arrow内存中。
iceberg-orc 可选模块，用于操作基于ORC文件的表格。
iceberg-hive-metastore 实现通过Hive元数据存储客户端管理的Iceberg表格。
iceberg-data 可选模块，用于直接从JVM工作环境中的表格进行操作。

除了上述核心模块之外，还有几个重要的文件和目录：

.git 存储版本控制系统的信息。
.github 包含Github相关的配置信息。
build.gradle 是Gradle构建脚本的主要配置文件。
settings.gradle 定义了所有子项目的名称和位置。
tasks.gradle 自定义的Gradle任务配置。
spotlessApply 脚本用于应用代码风格检查和修复。
doc/ 存放项目文档、教程和发布说明等。

启动文件介绍

在Iceberg项目中，并没有传统意义上的“启动”概念，因为它不是一个应用程序或服务，而是一套库和工具集。然而，对于其开发和测试环境的搭建以及运行测试，你需要执行以下命令来完成初始化和构建过程：

初始化并构建整个项目，包括运行所有测试：
```
./gradlew build
```
构建项目但跳过测试（通常用于快速编译或部署）：
```
./gradlew build -x test -x integrationTest
```

这些命令应当在项目根目录下执行。值得注意的是，在MacOS系统上，可能需要创建一个软链接以让测试识别docker socket：

```bash
sudo ln -s $HOME/.docker/run/docker.sock /var/run/docker.sock
```

配置文件介绍

Apache Iceberg项目中不直接包含外部可配置的属性文件，因为它的用途更偏向于作为不同大数据生态系统的库来被集成使用，而非独立运行的服务。但是，当Iceberg作为Spark、Flink或其他数据处理框架的一部分时，可以通过各种方式配置其行为，如通过Spark的spark.conf或者Flink的flink-conf.yaml。

例如，在Spark中，可以设置Iceberg的相关参数：

spark.sql.catalog.spark_catalog.type=hive // 使用Hive Metastore作为catalog
spark.sql.catalog.defaultCatalog=spark_catalog // 设置默认的catalog
spark.sql.catalog.spark_catalog.warehouse=my_warehouse_path // 指定表仓库路径

在实际的数据工程实践中，你可能会根据具体的使用场景和需求，自定义或修改相关组件的配置以优化性能或满足特定的功能要求。不过，所有的具体配置项都需要查阅对应生态系统的官方文档，因为它们并不是由Iceberg自身直接提供的。

iceberg

Apache Iceberg

项目地址：https://gitcode.com/gh_mirrors/iceberg4/iceberg

登录后查看全文

Apache Iceberg 开源项目安装与使用指南

目录结构及介绍

启动文件介绍

配置文件介绍

热门内容推荐

最新内容推荐

项目优选

Apache Iceberg 开源项目安装与使用指南

目录结构及介绍

启动文件介绍

配置文件介绍

相关内容推荐

热门内容推荐

最新内容推荐

项目优选