Big Whale 巨鲸任务调度平台使用教程

2024-09-23 18:03:28作者：尤峻淳Whitney

1. 项目介绍

Big Whale 巨鲸任务调度平台是由美柚大数据研发的分布式计算任务调度系统。该平台提供 Spark、Flink 等批处理任务的 DAG 调度和流处理任务的运行管理和状态监控。此外，它还具有 Yarn 应用管理、重复应用检测、大内存应用检测等功能。平台基于 Spring Boot 2.0 开发，打包后即可运行。

2. 项目快速启动

2.1 环境准备

Java 1.8+
Mysql 5.1.0+

2.2 下载项目

git clone https://github.com/MeetYouDevs/big-whale.git

2.3 数据库配置

创建数据库：
```
CREATE DATABASE big-whale;
```

运行数据库脚本：

mysql -u username -p big-whale < big-whale.sql

2.4 配置文件

编辑 big-whale.properties 文件，配置数据库账号密码以及 SMTP 信息。

2.5 打包与启动

打包项目：
```
mvn clean package
```
启动项目：
```
java -jar target/big-whale.jar
```

访问平台：

http://localhost:17070
用户名：admin
密码：admin

3. 应用案例和最佳实践

3.1 离线调度

Big Whale 支持“Shell”、“Spark Batch”和“Flink Batch”三种类型的批处理任务。通过拖拽左侧工具栏相应的批处理任务图标，可以添加相应的 DAG 节点。支持时间参数如 $[now]、$[now - 1d] 等。

3.2 实时任务

支持“Spark Stream”和“Flink Stream”两种类型的流处理任务。启用监控可以对任务进行状态监控，包括异常重启、批次积压告警等。

3.3 任务告警

正确配置邮件或钉钉告警后，在任务运行异常时会发送相应的告警邮件或通知，以便及时进行相应的处理。

4. 典型生态项目

Big Whale 作为一个任务调度平台，可以与以下生态项目结合使用：

Apache Spark: 用于大规模数据处理和分析。
Apache Flink: 用于流处理和实时数据分析。
Apache Hadoop: 提供分布式存储和计算能力。
Spring Boot: 提供快速开发和部署的能力。

通过这些生态项目的结合，Big Whale 可以构建一个完整的大数据处理和调度系统。

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

494

515

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Big Whale 巨鲸任务调度平台使用教程

1. 项目介绍

2. 项目快速启动

2.1 环境准备

2.2 下载项目

2.3 数据库配置

2.4 配置文件

2.5 打包与启动

3. 应用案例和最佳实践

3.1 离线调度

3.2 实时任务

3.3 任务告警

4. 典型生态项目

相关内容推荐

热门内容推荐

项目优选