【亲测免费】混沌工程工具包（Chaos Toolkit）入门指南

2026-01-16 09:31:06作者：乔或婵

一、项目介绍

混沌工程工具包（Chaos Toolkit），是由chaostoolkit组织开发并维护的一款开源工具集，旨在帮助开发者进行混沌工程实验的设计和执行。其核心特性包括：

自动化实验: 使用定义良好的JSON/YAML文件来描述你的混沌实验。
多平台支持: 支持Linux, macOS, 和Windows操作系统。
广泛的驱动程序: 提供各种插件和驱动程序以适应不同的环境和技术栈。

该工具包的核心库采用Python语言编写，遵循Apache-2.0许可协议。除了核心库外，项目还提供了Kubernetes驱动程序扩展、Chaos Toolkit插件模板等周边资源，使得开发者能够轻松地将混沌工程引入到他们的工作流程中。

二、项目快速启动

安装Chaos Toolkit

首先，你需要在本地环境中安装Chaos Toolkit命令行界面(CLI)。这可以通过以下步骤完成：

对于Ubuntu和其他基于Debian的系统:

sudo apt-get install python3-pip
pip3 install chaostoolkit-lib[all]

对于macOS:

brew install python
pip3 install chaostoolkit-lib[all]

对于Windows:

py -m pip install chaostoolkit-lib[all]

运行第一个实验

创建一个新的目录用于存放实验配置，并初始化一个基本的Chaos Toolkit实验：

mkdir my-first-experiment && cd $_
chaos init

接下来，在生成的experiment.json文件中添加或修改你的实验定义。下面是一个简单的示例：

{
    "title": "My First Chaos Experiment",
    "method": [
        {
            "type": "action",
            "provider": {
                "type": "python",
                "module": "chaoslib.types",
                "func": "fail",
                "arguments": {"message": "Simulating service failure"}
            },
            "name": "simulate-service-failure"
        }
    ],
    "steady-state-hypothesis": {
        "title": "Service continues operation",
        "probes": [
            {
                "type": "probe",
                "provider": {
                    "type": "python",
                    "module": "chaosaws.ec2.probe",
                    "func": "describe_instances",
                    "arguments": {"filters": [{"Name": "instance-state-name", "Values": ["running"]}]}
                },
                "tolerance": {
                    "type": "number",
                    "threshold": ">=",
                    "value": 1
                },
                "name": "check-running-instances"
            }
        ]
    },
    "rollbacks": []
}

最后，通过CLI运行你的实验：

chaos run experiment.json

以上步骤将模拟一次服务失败，并检查是否有至少一台正在运行的EC2实例作为稳定状态假设的一部分。

三、应用案例和最佳实践

应用案例

基础架构弹性测试：通过触发网络中断、磁盘满载等事件，验证基础设施的恢复能力。
微服务故障注入：模拟单个服务或整个集群的故障，评估系统的容错性和恢复策略。
数据库压力测试：对数据库执行高负载查询，确保数据一致性及性能稳定性。

最佳实践

在设计实验时，始终围绕“稳态”概念，即你希望系统在实验结束后保持的状态是什么样的。
确保每次实验都具有可逆性，以便可以安全回滚任何影响。
利用混沌工程来增强团队的韧性文化，而不仅仅是技术上的改进。

四、典型生态项目

chaostoolkit-bundler：该项目将Chaos Toolkit的CLI及其所有插件捆绑在一个独立的二进制文件中，适用于Linux、macOS以及Windows操作系统。
chaostoolkit-kubernetes：提供了一组Kubernetes驱动程序，允许用户在Kubernetes集群上执行混沌实验。
chaostoolkit-addons：一系列通用的Chaos Toolkit附加组件，如容忍度控制器，可用于提升所有Chaos Toolkit用户的体验。
chaostoolkit-extension-template：一个模板项目，便于开发者快速创建新的Chaos Toolkit扩展。
run-action：GitHub Action用于自动运行Chaos Toolkit实验。

这些生态项目不仅丰富了Chaos Toolkit的功能，也促进了社区的发展，使更多开发者能够在不同场景下利用混沌工程技术提升软件和服务的韧性和可靠性。

chaostoolkit

Chaos Engineering Toolkit & Orchestration for Developers

项目地址：https://gitcode.com/gh_mirrors/ch/chaostoolkit

登录后查看全文