RKE2 开源项目实战指南：从核心组件到配置优化

2026-03-31 09:30:49作者：董灵辛Dennis

rke2

项目地址：https://gitcode.com/gh_mirrors/rk/rke2

一、核心组件解析 📦

1.1 控制平面组件及其架构定位

控制平面（Control Plane）是负责集群管理的核心组件集合，相当于 Kubernetes 集群的"大脑"。RKE2 的控制平面主要由以下组件构成：

kube-apiserver：集群的统一入口，处理所有 API 请求
etcd：分布式键值存储，保存集群的所有状态数据
kube-scheduler：负责 Pod 的调度决策
kube-controller-manager：运行各种控制器进程，如节点控制器、副本控制器等

这些组件在 RKE2 项目中的实现位于 pkg/rke2/ 目录下，通过 rke2.go 和相关文件实现核心逻辑。控制平面组件之间通过 gRPC 和 HTTP/JSON 进行通信，形成一个紧密协作的系统。

1.2 工作节点组件及其交互关系

工作节点（Worker Node）是运行容器化应用的实际载体，主要包含：

kubelet：在每个节点上运行，确保容器按照 Pod 规范运行
kube-proxy：维护节点网络规则，实现 Service 概念
容器运行时：如 containerd，负责容器的生命周期管理

这些组件的实现代码位于 pkg/executor/ 和 pkg/windows/ 目录。工作节点通过 kubelet 与控制平面的 API Server 通信，接收指令并汇报节点状态。

1.3 RKE2 特有组件功能解析

RKE2 提供了一些独有的增强组件：

Selinux 支持：通过 pkg/rke2/rke2_linux.go 实现 SELinux 上下文管理
自动部署组件：如 pkg/bootstrap/ 目录下的引导程序，实现集群自动配置
安全增强：pkg/auth/ 目录下的认证授权机制，强化集群安全性

这些组件使 RKE2 相比原生 Kubernetes 具有更强的企业级特性和安全性。

1.4 功能模块与文件系统关联表

功能模块	核心文件路径	主要作用
服务管理	`bundle/lib/systemd/system/`	包含 systemd 服务定义文件，如 rke2-server.service
命令行接口	`pkg/cli/cmds/`	实现 `rke2 server`、`rke2 agent` 等命令
配置管理	`pkg/cli/defaults/`	定义默认配置值和配置处理逻辑
镜像管理	`pkg/images/`	处理容器镜像的拉取、验证和管理
静态 Pod 管理	`pkg/executor/staticpod/`	管理控制平面组件的静态 Pod

二、操作实践指南 ⚙️

2.1 如何获取并准备 RKE2 源码？

在开始使用 RKE2 之前，需要先获取源码并准备开发环境：

# 克隆 RKE2 仓库
git clone https://gitcode.com/gh_mirrors/rk/rke2
cd rke2

# 检查系统依赖
./scripts/validate

# 构建项目
make

[!TIP] 执行 ./scripts/validate 会检查系统是否满足 RKE2 的构建和运行要求，包括 Go 版本、必要的系统工具等。如果有缺失依赖，会给出明确的安装建议。

2.2 如何启动 RKE2 服务器节点？

启动 RKE2 服务器节点需要几个关键步骤：

# 1. 检查网络环境
ip addr show  # 确保网络接口正常
ping 8.8.8.8  # 验证网络连接

# 2. 启动服务器服务
sudo systemctl start rke2-server.service

# 3. 验证服务状态
sudo systemctl status rke2-server.service
# 预期输出：active (running)

# 4. 检查控制平面组件状态
sudo /var/lib/rancher/rke2/bin/kubectl --kubeconfig /etc/rancher/rke2/rke2.yaml get pods -n kube-system

如果服务启动失败，可以通过以下命令查看日志排查问题：

journalctl -u rke2-server.service -f

2.3 如何添加工作节点到集群？

添加工作节点到现有集群的步骤如下：

# 1. 在服务器节点获取加入命令
sudo /var/lib/rancher/rke2/bin/kubectl --kubeconfig /etc/rancher/rke2/rke2.yaml get node

# 2. 在服务器节点生成加入令牌
sudo cat /var/lib/rancher/rke2/server/node-token

# 3. 在工作节点执行加入命令（替换以下参数）
curl -sfL https://get.rke2.io | INSTALL_RKE2_TYPE=agent sh -
sudo systemctl enable rke2-agent.service
sudo systemctl start rke2-agent.service

[!TIP] 工作节点需要能够访问服务器节点的 9345 端口（用于节点注册）和 6443 端口（Kubernetes API）。如果有防火墙，需要确保这些端口开放。

2.4 如何验证集群健康状态？

集群部署完成后，需要进行全面的健康检查：

# 1. 检查节点状态
sudo /var/lib/rancher/rke2/bin/kubectl --kubeconfig /etc/rancher/rke2/rke2.yaml get nodes
# 预期输出：所有节点状态为 Ready

# 2. 检查系统组件状态
sudo /var/lib/rancher/rke2/bin/kubectl --kubeconfig /etc/rancher/rke2/rke2.yaml get pods -n kube-system
# 预期输出：所有 Pod 状态为 Running 或 Completed

# 3. 运行集群健康检查脚本
./scripts/test

三、配置进阶技巧 🔧

3.1 如何通过配置文件自定义集群行为？

RKE2 的主配置文件位于 /etc/rancher/rke2/config.yaml。以下是不同场景的配置示例：

基础配置场景：

# 设置 kubeconfig 文件权限
write-kubeconfig-mode: "0644"
# 添加 TLS 证书主题备用名称
tls-san:
  - "cluster.example.com"
# 设置节点标签
node-label:
  - "environment=production"

安全加固场景：

# 启用 Secrets 加密
secrets-encryption: true
# 配置 API Server 安全参数
api-server-arg:
  - "tls-min-version=VersionTLS13"
  - "tls-cipher-suites=TLS_AES_256_GCM_SHA384,TLS_CHACHA20_POLY1305_SHA256"
# 限制 etcd 数据目录权限
etcd-data-dir: "/var/lib/rancher/rke2/server/db"

性能优化场景：

# 配置 etcd 性能参数
etcd-arg:
  - "auto-compaction-retention=1h"
  - "snapshot-count=5000"
# 调整 API Server 资源限制
api-server-resource-limits:
  cpu: "2000m"
  memory: "2Gi"
# 配置 kubelet 资源预留
kubelet-arg:
  - "system-reserved=cpu=200m,memory=256Mi"
  - "kube-reserved=cpu=100m,memory=128Mi"

[!TIP] 所有配置项的默认值可以在 pkg/cli/defaults/defaults.go 文件中找到。修改配置后需要重启相应服务使配置生效。

3.2 如何配置高可用集群？

RKE2 支持通过 etcd 集群实现高可用。关键配置如下：

# 在第一个服务器节点上初始化集群
server: https://<server1-ip>:9345
token: <cluster-token>
cluster-init: true

# 在其他服务器节点上加入集群
server: https://<server1-ip>:9345
token: <cluster-token>

部署高可用集群的步骤：

在第一个服务器节点执行 rke2 server --cluster-init
在其他服务器节点执行 rke2 server --server https://<first-server-ip>:9345 --token <token>
配置负载均衡器指向所有服务器节点的 6443 端口
工作节点通过负载均衡器加入集群

3.3 如何实现自定义网络配置？

RKE2 支持多种网络插件，可通过以下配置进行自定义：

# 使用 Calico 网络插件
cni: calico
# 配置 Pod CIDR
cluster-cidr: "10.42.0.0/16"
# 配置 Service CIDR
service-cidr: "10.43.0.0/16"
# 配置节点内部 Pod 通信 MTU
flannel-backend: "vxlan"
flannel-mtu: 1450

对于高级网络需求，可以通过 --cni-config 参数指定自定义 CNI 配置文件。

3.4 如何配置自动备份与恢复？

RKE2 提供了 etcd 快照功能，配置自动备份：

# 启用自动快照
etcd-snapshot-schedule-cron: "0 */12 * * *"
# 快照保留天数
etcd-snapshot-retention: 7
# 快照存储位置
etcd-snapshot-dir: "/var/lib/rancher/rke2/server/db/snapshots"

手动创建快照：

sudo rke2 etcd-snapshot save --name manual-backup

恢复快照：

sudo rke2 server --cluster-reset --cluster-reset-restore-path=/var/lib/rancher/rke2/server/db/snapshots/manual-backup

[!TIP] 生产环境中建议将快照备份到外部存储。可以通过 etcd-snapshot-s3-* 相关配置实现 AWS S3 兼容存储的自动上传。

rke2

项目地址：https://gitcode.com/gh_mirrors/rk/rke2

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

393

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

987