Apache Samza 技术文档
2024-12-18 19:18:10作者:郁楠烈Hubert
1. 安装指南
1.1 环境要求
- Java 8 或 Java 11 运行环境
- Gradle(用于构建项目)
- Apache Kafka
- Apache Hadoop YARN
1.2 构建 Samza
1.2.1 从 Git 仓库构建
- 克隆 Samza 仓库:
git clone https://github.com/apache/samza.git cd samza
- 运行构建命令:
./gradlew clean build
1.2.2 从源码发布包构建
- 下载 Gradle 包装器脚本。
- 运行引导脚本:
gradle -b bootstrap.gradle
- 引导完成后,使用以下命令构建:
./gradlew clean build
1.3 Java 版本支持
- Samza 支持在 Java 8 和 Java 11 环境下运行。
- 如果使用 Java 11,需使用 YARN 3.3.4+,并使用
samza-yarn3
模块。
1.4 Scala 和 YARN
- Samza 默认使用 Scala 2.11 或 2.12 和 YARN 2.10.1。
- 使用
-PscalaSuffix
切换 Scala 版本:./gradlew -PscalaSuffix=2.12 clean build
2. 项目的使用说明
2.1 运行测试
- 运行所有测试:
./gradlew clean test
- 运行单个测试:
./gradlew clean :samza-test:test -Dtest.single=TestStatefulTask
- 运行性能测试:
./gradlew samza-shell:kvPerformanceTest -PconfigPath=file://$PWD/samza-test/src/main/config/perf/kv-perf.properties
- 运行集成测试:
./bin/integration-tests.sh <dir> yarn-integration-tests
2.2 代码检查
- 运行 Checkstyle:
./gradlew checkstyleMain checkstyleTest
2.3 作业管理
- 运行作业:
./gradlew samza-shell:runJob -PconfigPath=/path/to/job/config.properties
- 检查作业的最新检查点:
./gradlew samza-shell:checkpointTool -PconfigPath=/path/to/job/config.properties
- 修改作业的检查点:
./gradlew samza-shell:checkpointTool -PconfigPath=/path/to/job/config.properties \ -PnewOffsets=file:///path/to/new/offsets.properties
2.4 开发环境配置
- 生成 Eclipse 项目:
./gradlew eclipse
- 生成 IntelliJ 项目:
./gradlew idea
3. 项目API使用文档
3.1 API 概述
Samza 提供了一个简单的回调式 API,类似于 MapReduce,用于处理消息。主要 API 包括:
processMessage(Message message)
:处理单个消息。snapshotState()
:快照处理器的当前状态。restoreState()
:从快照中恢复处理器的状态。
3.2 状态管理
Samza 管理处理器的状态快照和恢复。当处理器重启时,Samza 会从一致的快照中恢复其状态。
3.3 故障容错
Samza 与 YARN 协同工作,当集群中的机器故障时,Samza 会透明地将任务迁移到另一台机器。
3.4 可扩展性
Samza 在每个级别上都是分区和分布式的,Kafka 提供了有序、分区、可重放、容错的消息流,YARN 提供了分布式环境来运行 Samza 容器。
4. 项目安装方式
4.1 从源码安装
- 克隆仓库并进入目录:
git clone https://github.com/apache/samza.git cd samza
- 构建项目:
./gradlew clean build
4.2 从源码发布包安装
- 下载 Gradle 包装器脚本。
- 运行引导脚本:
gradle -b bootstrap.gradle
- 构建项目:
./gradlew clean build
4.3 运行环境配置
- 确保安装了 Java 8 或 Java 11。
- 配置 Kafka 和 YARN 环境。
通过以上步骤,您可以成功安装并使用 Apache Samza 进行分布式流处理。
登录后查看全文
热门项目推荐
相关项目推荐
- DDeepSeek-R1-0528DeepSeek-R1-0528 是 DeepSeek R1 系列的小版本升级,通过增加计算资源和后训练算法优化,显著提升推理深度与推理能力,整体性能接近行业领先模型(如 O3、Gemini 2.5 Pro)Python00
cherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端TypeScript034deepflow
DeepFlow 是云杉网络 (opens new window)开发的一款可观测性产品,旨在为复杂的云基础设施及云原生应用提供深度可观测性。DeepFlow 基于 eBPF 实现了应用性能指标、分布式追踪、持续性能剖析等观测信号的零侵扰(Zero Code)采集,并结合智能标签(SmartEncoding)技术实现了所有观测信号的全栈(Full Stack)关联和高效存取。使用 DeepFlow,可以让云原生应用自动具有深度可观测性,从而消除开发者不断插桩的沉重负担,并为 DevOps/SRE 团队提供从代码到基础设施的监控及诊断能力。Go01
热门内容推荐
1 freeCodeCamp博客页面开发中锚点跳转问题的技术解析2 freeCodeCamp实时字符计数器实验的技术实现探讨3 freeCodeCamp课程中关于单选框样式定制的技术解析4 freeCodeCamp平台证书查看功能异常的技术分析5 freeCodeCamp全栈开发课程中关于HTML可访问性讲座的字幕修正6 freeCodeCamp 实验室项目:Event Hub 图片元素顺序优化指南7 freeCodeCamp课程中sr-only类与position: absolute的正确使用8 freeCodeCamp课程中ARIA-hidden属性的技术解析9 freeCodeCamp全栈开发课程中收藏图标切换器的优化建议10 freeCodeCamp贷款资格检查器中的参数验证问题分析
最新内容推荐
Pannellum多分辨率图像生成中的层级计算边界问题分析 GalaxyBudsClient 5.1.2版本发布:三星耳机管理工具新特性解析 Snacks.nvim文件浏览器光标跳转问题分析与修复 XTuner项目中Flash Attention版本兼容性问题解析 ApostropheCMS中Vimeo视频URL格式兼容性问题解析 Cromite项目中的WebView字体指纹防护机制解析 Flutter Rust Bridge 中集成 ZSTD 压缩库的 WASM 编译问题解析 OpenGrok项目中文件历史页面的修订标签显示问题解析 Cirq项目中关于MatrixGate符号参数支持的技术探讨 XTuner项目中全参微调与QLoRA训练数据路径配置差异解析
项目优选
收起

React Native鸿蒙化仓库
C++
93
169

🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
431
327

openGauss kernel ~ openGauss is an open source relational database management system
C++
49
116

本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
270
439

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
328
33

基于仓颉编程语言构建的 LLM Agent 开发框架,其主要特点包括:Agent DSL、支持 MCP 协议,支持模块化调用,支持任务智能规划。
Cangjie
558
39

前端智能化场景解决方案UI库,轻松构建你的AI应用,我们将持续完善更新,欢迎你的使用与建议。
官网地址:https://matechat.gitcode.com
633
75

方舟分析器:面向ArkTS语言的静态程序分析框架
TypeScript
29
35

一个markdown解析和展示的库
Cangjie
27
3

本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
342
214