Apache Hudi 技术文档

2024-12-18 00:49:51作者：幸俭卉

1. 安装指南

1.1 环境要求

在开始安装之前，请确保您的系统满足以下要求：

Unix-like 系统（如 Linux, Mac OS X）
Java 8, 11 或 17
Git
Maven（版本 >= 3.6.0）

1.2 从源码构建

克隆代码库并进入项目目录：

git clone https://github.com/apache/hudi.git && cd hudi

使用 Maven 构建项目：
```
mvn clean package -DskipTests
```

启动 Spark Shell：

spark-3.5.0-bin-hadoop3/bin/spark-shell \
  --jars `ls packaging/hudi-spark-bundle/target/hudi-spark3.5-bundle_2.12-*.*.*-SNAPSHOT.jar` \
  --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
  --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension' \
  --conf 'spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog' \
  --conf 'spark.kryo.registrator=org.apache.spark.HoodieSparkKryoRegistrar'

1.3 构建不同版本的 Spark 和 Flink

Spark 版本：默认使用 Spark 3.5.x 和 Scala 2.12。可以通过 -Dspark3.x 参数指定其他版本，例如 -Dspark3.4 表示使用 Spark 3.4.x。
Flink 版本：默认使用 Flink 1.20.x。可以通过 -Dflink1.x 参数指定其他版本，例如 -Dflink1.19 表示使用 Flink 1.19。

2. 项目的使用说明

2.1 项目概述

Apache Hudi 是一个开源的数据湖平台，支持在云环境中高效地摄取、索引、存储、服务、转换和管理数据。Hudi 提供了多种功能，包括数据摄取、存储优化、索引、写入和查询等。

2.2 主要功能

数据摄取：支持多种文件格式和数据源，如 Apache Kafka、数据库变更日志等。
存储优化：自动管理文件大小和布局，支持行和列存储格式。
索引：提供可扩展的索引系统，加速查询。
写入：支持原子提交、快照隔离和并发控制。
查询：支持多种查询类型，如快照查询、增量查询、变更数据捕获查询等。

2.3 使用场景

Hudi 适用于需要高效管理大规模数据湖的场景，特别是在云环境中进行数据摄取、存储和查询的场景。

3. 项目API使用文档

3.1 核心API

HoodieWriteClient：用于数据写入的核心API，支持插入、更新和删除操作。
HoodieReadClient：用于数据读取的核心API，支持快照查询、增量查询等。

3.2 配置参数

spark.serializer：指定序列化器，推荐使用 org.apache.spark.serializer.KryoSerializer。
spark.sql.extensions：启用 Hudi 的 SQL 扩展。
spark.sql.catalog.spark_catalog：指定 Hudi 的 Catalog 实现。

3.3 示例代码

import org.apache.hudi.QuickstartUtils._
import org.apache.spark.sql.SaveMode._

val dataGen = new DataGenerator()
val inserts = convertToStringList(dataGen.generateInserts(100))
val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2))

df.write.format("hudi").
  options(getQuickstartWriteConfigs).
  option(PRECOMBINE_FIELD_OPT_KEY, "ts").
  option(RECORDKEY_FIELD_OPT_KEY, "uuid").
  option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").
  option(TABLE_NAME, "hudi_table").
  mode(Overwrite).
  save("path/to/hudi_table")

4. 项目安装方式

4.1 通过 Maven 安装

在项目的 pom.xml 中添加以下依赖：

<dependency>
  <groupId>org.apache.hudi</groupId>
  <artifactId>hudi-spark-bundle</artifactId>
  <version>0.13.0</version>
</dependency>

4.2 通过 Spark Shell 使用

在启动 Spark Shell 时，加载 Hudi 的 JAR 包：

spark-shell --jars hudi-spark-bundle_2.12-0.13.0.jar

4.3 通过 Flink 使用

在 Flink 项目中，添加 Hudi 的依赖：

<dependency>
  <groupId>org.apache.hudi</groupId>
  <artifactId>hudi-flink-bundle</artifactId>
  <version>0.13.0</version>
</dependency>

通过以上步骤，您可以成功安装并使用 Apache Hudi 项目。

hudi

项目地址：https://gitcode.com/gh_mirrors/hud/hudi

项目优选

收起

本仓将收集和展示仓颉鸿蒙应用示例代码，欢迎大家投稿，在仓颉鸿蒙社区展现你的妙趣设计！

Cangjie

286

✍ WeChat Markdown Editor | 一款高度简洁的微信 Markdown 编辑器：支持 Markdown 语法、色盘取色、多图上传、一键下载文档、自定义 CSS 样式、一键重置等特性

Vue

112

openHiTLS

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

RuoYi-Cloud-Vue3

🎉 基于Spring Boot、Spring Cloud & Alibaba、Vue3 & Vite、Element Plus的分布式前后端分离微服务架构权限管理系统

Vue

go-stock

🦄🦄🦄AI赋能股票分析：自选股行情获取，成本盈亏展示，涨跌报警推送，市场整体/个股情绪分析，K线技术指标分析等。数据全部保留在本地。支持DeepSeek，OpenAI， Ollama，LMStudio，AnythingLLM，硅基流动，火山方舟，阿里云百炼等平台或模型。

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

Cangjie

205

MateChat

前端智能化场景解决方案UI库，轻松构建你的AI应用，我们将持续完善更新，欢迎你的使用与建议。官网地址：https://matechat.gitcode.com

383

RuoYi-Vue

🎉 基于SpringBoot，Spring Security，JWT，Vue & Element 的前后端分离权限管理系统，同时提供了 Vue3 的版本

Java

182

frog

这是一个人工生命试验项目，最终目标是创建“有自我意识表现”的模拟生命体。

Java

Apache Hudi 技术文档

1. 安装指南

1.1 环境要求

1.2 从源码构建

1.3 构建不同版本的 Spark 和 Flink

2. 项目的使用说明

2.1 项目概述

2.2 主要功能

2.3 使用场景

3. 项目API使用文档

3.1 核心API

3.2 配置参数

3.3 示例代码

4. 项目安装方式

4.1 通过 Maven 安装

4.2 通过 Spark Shell 使用

4.3 通过 Flink 使用

热门内容推荐

最新内容推荐

项目优选

Apache Hudi 技术文档

1. 安装指南

1.1 环境要求

1.2 从源码构建

1.3 构建不同版本的 Spark 和 Flink

2. 项目的使用说明

2.1 项目概述

2.2 主要功能

2.3 使用场景

3. 项目API使用文档

3.1 核心API

3.2 配置参数

3.3 示例代码

4. 项目安装方式

4.1 通过 Maven 安装

4.2 通过 Spark Shell 使用

4.3 通过 Flink 使用

相关内容推荐

热门内容推荐

最新内容推荐

项目优选