数据质量验证工具Great Expectations：从问题到实践的完整指南

2026-03-11 04:58:15作者：何举烈Damon

一、数据质量挑战与解决方案

1.1 数据质量问题的多维表现

在数据驱动决策的过程中，企业常面临数据质量问题，如数据缺失、格式错误、逻辑矛盾等。这些问题可能导致分析结果失真，影响业务决策的准确性。例如，金融行业中客户信息的不完整可能导致风控模型失效，电商领域中商品价格的异常可能引发运营风险。

1.2 Great Expectations的解决方案

Great Expectations作为一款开源的数据验证工具，通过定义"期望"（Expectations）来描述数据应满足的条件，实现自动化数据质量检查。其核心优势在于提供了丰富的内置期望库、交互式开发体验和自动生成的数据文档，帮助数据团队高效保障数据质量。

📌 核心优势：Great Expectations将数据质量规则转化为可执行的代码，实现了数据验证的自动化和标准化，同时通过数据文档促进团队协作。

二、技术架构解析

2.1 核心组件及其交互关系

Great Expectations的技术架构由多个核心组件构成，各组件协同工作完成数据验证流程：

Data Context：管理配置和资源的核心对象，是与工具交互的入口。
Data Source：连接各种数据源，如数据库、文件系统等。
Data Asset：表示数据的逻辑集合，如数据库表、CSV文件等。
Expectation Suite：数据质量规则集合，包含一组期望。
Checkpoint：配置和运行验证的机制。
Validation Result：验证运行后的结果。
Data Docs：自动生成的数据文档，展示验证结果和数据概况。

2.2 Data Context的核心作用

Data Context是Great Expectations的核心组件，负责管理配置、连接数据源、存储期望套件等。它有三种类型：Ephemeral Data Context（内存中，不持久化）、File Data Context（基于文件系统，可持久化）和Cloud Data Context（用于GX Cloud）。

⚠️ 注意事项：在初始化项目时，选择合适的Data Context类型对后续工作至关重要。本地开发推荐使用File Data Context，便于配置的持久化和版本控制。

三、零门槛启动指南

3.1 环境准备与安装

Great Expectations支持Python 3.7及以上版本，可通过以下步骤安装：

# 克隆仓库
git clone https://gitcode.com/GitHub_Trending/gr/great_expectations

# 进入项目目录
cd great_expectations

# 安装依赖
pip install -r requirements.txt

📌 新手误区：直接使用pip install great_expectations可能安装的不是最新版本，建议通过源码安装以获取最新功能。

3.2 初始化项目

安装完成后，通过以下命令初始化Great Expectations项目：

great_expectations init

该命令会引导用户创建项目目录结构，包括配置文件、期望套件存储目录等。初始化过程中，用户需要设置数据源连接信息，如数据库连接字符串、文件路径等。

3.3 环境适配方案

针对不同的运行环境，Great Expectations提供了灵活的适配方案：

本地开发环境：通过File Data Context管理配置，适合个人或小团队使用。
生产环境：可集成到数据管道中，与Airflow、Prefect等调度工具结合，实现自动化数据验证。
云环境：使用Cloud Data Context，结合GX Cloud服务，实现多团队协作和集中化管理。

四、业务规则数字化

4.1 期望定义的基础方法

期望（Expectation）是Great Expectations的核心概念，用于描述数据应满足的条件。以下是定义期望的基础方法：

import great_expectations as gx
from great_expectations.dataset import PandasDataset
import pandas as pd

# 加载数据
df = pd.read_csv("titanic.csv")
dataset = PandasDataset(df)

# 定义期望
dataset.expect_column_values_to_not_be_null("PassengerId")  # 检查PassengerId列非空
dataset.expect_column_values_to_be_between("Age", min_value=0, max_value=120)  # 检查Age列值在0-120之间
dataset.expect_column_unique("Ticket")  # 检查Ticket列值唯一

# 保存期望套件
dataset.save_expectation_suite("titanic_expectation_suite.json")

📌 代码说明：上述代码加载泰坦尼克号数据集，定义了三个基本期望，并将期望套件保存到JSON文件中。【PassengerId】、【Age】和【Ticket】是数据集中的列名，根据实际数据结构调整。

4.2 交互式期望创建

Great Expectations在Jupyter Notebook中提供自动补全功能，方便用户浏览和选择期望类型：

通过交互式方式，用户可以快速构建期望套件，减少手动编码错误。

4.3 行业场景案例

4.3.1 金融行业：客户信息验证

金融机构需要确保客户信息的准确性和完整性，可定义以下期望：

expect_column_values_to_match_regex("phone_number", r"^1[3-9]\d{9}$")：验证手机号格式
expect_column_values_to_be_in_set("risk_level", ["low", "medium", "high"])：验证风险等级在允许范围内

4.3.2 电商行业：商品数据验证

电商平台需保证商品数据的一致性，可定义：

expect_column_values_to_not_be_null("price")：价格非空
expect_column_values_to_be_greater_than("stock_quantity", 0)：库存数量大于0

4.4 自定义期望vs内置期望决策树

当内置期望无法满足需求时，可创建自定义期望。以下决策树帮助判断何时选择自定义期望：

所需验证逻辑是否属于常见数据质量检查？
- 是：使用内置期望
- 否：进入下一步
验证逻辑是否可通过组合多个内置期望实现？
- 是：组合使用内置期望
- 否：创建自定义期望

📌 核心优势：自定义期望允许用户将特定业务规则转化为可执行的代码，扩展了工具的适用范围。

五、数据验证实践

5.1 创建和运行Checkpoint

Checkpoint是运行数据验证的机制，配置如下：

# 加载Data Context
context = gx.get_context()

# 创建Checkpoint
checkpoint = context.add_checkpoint(
    name="titanic_checkpoint",
    validations=[
        {
            "batch_request": {
                "datasource_name": "titanic_datasource",
                "data_asset_name": "titanic_data_asset",
            },
            "expectation_suite_name": "titanic_expectation_suite",
        }
    ],
)

# 运行验证
result = checkpoint.run()

📌 代码说明：【titanic_datasource】和【titanic_data_asset】是在初始化时配置的数据源和数据资产名称，需根据实际情况调整。

5.2 查看验证结果

验证完成后，可通过以下方式查看结果：

# 打印验证结果摘要
print(result)

# 生成数据文档
context.build_data_docs()
context.open_data_docs()

数据文档提供了直观的验证结果展示，包括每个期望的状态、观察值等：

5.3 常见故障排除

5.3.1 数据源连接失败

症状：验证时提示无法连接数据源。
诊断流程：
1. 检查数据源配置是否正确，如连接字符串、用户名密码等。
2. 测试数据源是否可访问，如使用ping命令或数据库客户端连接。
3. 检查网络权限，确保Great Expectations所在环境能访问数据源。

5.3.2 期望验证失败

症状：部分期望验证失败。
诊断流程：
1. 在数据文档中查看失败期望的详细信息，包括观察值和预期值。
2. 检查数据是否存在异常，如是否有脏数据、格式错误等。
3. 确认期望定义是否正确，是否与业务规则一致。

5.3.3 数据文档生成失败

症状：运行build_data_docs()后无输出或报错。
诊断流程：
1. 检查日志文件，定位错误原因。
2. 确认Data Context配置中的数据文档存储路径是否可写。
3. 尝试重新初始化Data Context，修复配置文件。

六、数据质量成熟度评估矩阵

以下矩阵帮助评估数据质量管理的成熟度，共分为五个等级：

成熟度等级	特征	Great Expectations应用建议
1级：无验证	无数据质量检查流程，依赖人工抽查	从基础期望开始，如非空检查、格式验证
2级：手动验证	有定期手动检查流程，但无自动化	构建核心期望套件，实现关键数据自动验证
3级：部分自动化	关键数据流程有自动化验证，但规则分散	统一管理期望套件，与数据管道集成
4级：全面自动化	全流程自动化验证，有监控和告警机制	使用Checkpoint调度验证，配置通知动作
5级：持续优化	基于验证结果持续优化数据质量规则	分析验证结果，迭代改进期望定义