Apache Samza 技术文档

2024-12-23 00:39:35作者：郁楠烈Hubert

1. 安装指南

1.1 环境要求

Java 8 或 Java 11 运行环境
Gradle（用于构建项目）
Apache Kafka
Apache Hadoop YARN

1.2 构建 Samza

1.2.1 从 Git 仓库构建

克隆 Samza 仓库：

git clone https://github.com/apache/samza.git
cd samza

运行构建命令：
```
./gradlew clean build
```

1.2.2 从源码发布包构建

下载 Gradle 包装器脚本。
运行引导脚本：
```
gradle -b bootstrap.gradle
```
引导完成后，使用以下命令构建：
```
./gradlew clean build
```

1.3 Java 版本支持

Samza 支持在 Java 8 和 Java 11 环境下运行。
如果使用 Java 11，需使用 YARN 3.3.4+，并使用 samza-yarn3 模块。

1.4 Scala 和 YARN

Samza 默认使用 Scala 2.11 或 2.12 和 YARN 2.10.1。

使用 -PscalaSuffix 切换 Scala 版本：

./gradlew -PscalaSuffix=2.12 clean build

2. 项目的使用说明

2.1 运行测试

运行所有测试：
```
./gradlew clean test
```

运行单个测试：

./gradlew clean :samza-test:test -Dtest.single=TestStatefulTask

运行性能测试：

./gradlew samza-shell:kvPerformanceTest -PconfigPath=file://$PWD/samza-test/src/main/config/perf/kv-perf.properties

运行集成测试：

./bin/integration-tests.sh <dir> yarn-integration-tests

2.2 代码检查

运行 Checkstyle：

./gradlew checkstyleMain checkstyleTest

2.3 作业管理

运行作业：

./gradlew samza-shell:runJob -PconfigPath=/path/to/job/config.properties

检查作业的最新检查点：

./gradlew samza-shell:checkpointTool -PconfigPath=/path/to/job/config.properties

修改作业的检查点：

./gradlew samza-shell:checkpointTool -PconfigPath=/path/to/job/config.properties \
    -PnewOffsets=file:///path/to/new/offsets.properties

2.4 开发环境配置

生成 Eclipse 项目：
```
./gradlew eclipse
```
生成 IntelliJ 项目：
```
./gradlew idea
```

3. 项目API使用文档

3.1 API 概述

Samza 提供了一个简单的回调式 API，类似于 MapReduce，用于处理消息。主要 API 包括：

processMessage(Message message)：处理单个消息。
snapshotState()：快照处理器的当前状态。
restoreState()：从快照中恢复处理器的状态。

3.2 状态管理

Samza 管理处理器的状态快照和恢复。当处理器重启时，Samza 会从一致的快照中恢复其状态。

3.3 故障容错

Samza 与 YARN 协同工作，当集群中的机器故障时，Samza 会透明地将任务迁移到另一台机器。

3.4 可扩展性

Samza 在每个级别上都是分区和分布式的，Kafka 提供了有序、分区、可重放、容错的消息流，YARN 提供了分布式环境来运行 Samza 容器。

4. 项目安装方式

4.1 从源码安装

克隆仓库并进入目录：

git clone https://github.com/apache/samza.git
cd samza

构建项目：
```
./gradlew clean build
```

4.2 从源码发布包安装

下载 Gradle 包装器脚本。
运行引导脚本：
```
gradle -b bootstrap.gradle
```
构建项目：
```
./gradlew clean build
```

4.3 运行环境配置

确保安装了 Java 8 或 Java 11。
配置 Kafka 和 YARN 环境。

通过以上步骤，您可以成功安装并使用 Apache Samza 进行分布式流处理。

samza

Mirror of Apache Samza

项目地址：https://gitcode.com/gh_mirrors/sam/samza

登录后查看全文

Apache Samza 技术文档

1. 安装指南

1.1 环境要求

1.2 构建 Samza

1.2.1 从 Git 仓库构建

1.2.2 从源码发布包构建

1.3 Java 版本支持

1.4 Scala 和 YARN

2. 项目的使用说明

2.1 运行测试

2.2 代码检查

2.3 作业管理

2.4 开发环境配置

3. 项目API使用文档

3.1 API 概述

3.2 状态管理

3.3 故障容错

3.4 可扩展性

4. 项目安装方式

4.1 从源码安装

4.2 从源码发布包安装

4.3 运行环境配置

热门内容推荐

最新内容推荐

项目优选

Apache Samza 技术文档

1. 安装指南

1.1 环境要求

1.2 构建 Samza

1.2.1 从 Git 仓库构建

1.2.2 从源码发布包构建

1.3 Java 版本支持

1.4 Scala 和 YARN

2. 项目的使用说明

2.1 运行测试

2.2 代码检查

2.3 作业管理

2.4 开发环境配置

3. 项目API使用文档

3.1 API 概述

3.2 状态管理

3.3 故障容错

3.4 可扩展性

4. 项目安装方式

4.1 从源码安装

4.2 从源码发布包安装

4.3 运行环境配置

相关内容推荐

热门内容推荐

最新内容推荐

项目优选