Great Expectations：数据质量测试的革命性工具

2026-02-04 05:18:42作者：冯爽妲Honey

数据质量的隐形危机：你真的了解你的数据吗？

当数据工程师小王第17次收到业务部门投诉——"用户画像数据又出现异常值"时，他意识到传统的手工校验流程已经彻底失效。每天处理TB级数据的管道中，隐藏着格式错误、缺失值、离群点等上百种潜在问题，而依靠Excel抽样和SQL查询的方式，就像用放大镜在撒哈拉沙漠中寻找一粒沙子。

数据质量事故的真实代价：

某电商平台因用户年龄字段存在负值，导致推荐算法失效，单日损失230万元营收
某银行因交易金额校验缺失，引发监管处罚，罚款金额达年度利润的15%
某医疗机构因患者ID重复，造成诊断报告混淆，引发严重医疗纠纷

Great Expectations（GX）的出现，彻底改变了数据质量保障的游戏规则。作为数据领域的单元测试框架，它让数据团队首次拥有了像软件工程师一样系统化保障质量的能力。本文将带你深入掌握这一革命性工具，从核心概念到企业级实践，构建坚不可摧的数据质量防线。

核心价值：为何Great Expectations成为数据团队的必备工具？

打破数据质量的三大困境

传统数据校验方式	Great Expectations解决方案	效率提升
手写SQL进行数据校验，重复劳动	预定义200+Expectation模板，开箱即用	减少80%重复代码
校验结果分散在日志/邮件中，缺乏统一视图	自动生成交互式数据文档，直观展示校验结果	问题定位时间缩短75%
数据变更时校验规则滞后，被动响应	基于数据剖面自动生成校验规则，主动防御	异常发现提前90%

四大核心优势

数据团队的共同语言：用"期望"（Expectation）统一数据质量规则的定义，消除业务与技术之间的理解鸿沟。例如expect_column_values_to_be_between(column="age", min_value=0, max_value=120)清晰表达"年龄必须在0到120之间"。
多环境无缝适配：完美支持Python、Pandas、Spark、SQLAlchemy等主流数据处理框架，无论是批处理还是流处理场景，都能提供一致的校验体验。
自动化数据文档：自动生成包含数据统计特征、校验规则和历史结果的交互式文档，让数据质量状态一目了然。
灵活的集成能力：与Airflow、Prefect、Dagster等调度工具深度集成，轻松嵌入现有数据管道，实现质量校验的自动化与常态化。

核心概念解析：构建数据质量保障体系的基石

数据验证的三大支柱

flowchart TD
    A[DataContext] -->|管理| B[ExpectationSuite]
    A -->|执行| C[Checkpoint]
    B -->|包含| D[Expectation]
    C -->|引用| B
    C -->|生成| E[ValidationResult]
    E -->|渲染| F[DataDocs]

1. DataContext（数据上下文）

DataContext是GX的核心入口，管理着所有配置、存储和资源。它如同数据质量项目的"大脑"，协调各个组件的协同工作。

初始化示例：

import great_expectations as gx

# 初始化DataContext
context = gx.get_context()

# 查看上下文信息
print(f"数据文档存储路径: {context.data_docs_sites}")
print(f" Expectation存储配置: {context.expectations_store}")

2. Expectation（期望）

Expectation是数据质量规则的原子单元，定义了对数据的具体期望。GX提供了丰富的内置期望，涵盖从简单的字段校验到复杂的统计分析。

常用期望类型：

类别	示例	应用场景
列值范围	`expect_column_values_to_be_between`	年龄、金额等数值字段的合法性校验
数据格式	`expect_column_values_to_match_regex`	邮箱、手机号等格式校验
空值检查	`expect_column_values_to_not_be_null`	关键业务字段非空校验
唯一性约束	`expect_column_values_to_be_unique`	用户ID、订单号等唯一标识
统计特征	`expect_column_mean_to_be_between`	数据分布稳定性监控

自定义期望示例：

from great_expectations.expectations.expectation import ColumnMapExpectation

class ExpectColumnValuesToBeValidEmail(ColumnMapExpectation):
    """验证列值是否为合法邮箱格式"""
    
    def _validate(self, column, **kwargs):
        email_regex = r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$'
        return column.str.match(email_regex)

# 注册自定义期望
context.register_expectation(ExpectColumnValuesToBeValidEmail)

3. ExpectationSuite（期望套件）

ExpectationSuite是相关期望的集合，通常对应一个数据集或数据资产。例如，针对用户表的所有校验规则可以组织成一个user_data_suite。

创建套件示例：

# 创建新的期望套件
suite = context.suites.add(ExpectationSuite(name="user_data_suite"))

# 添加期望
suite.add_expectation(
    ExpectationConfiguration(
        expectation_type="expect_column_values_to_not_be_null",
        kwargs={"column": "user_id"}
    )
)

suite.add_expectation(
    ExpectationConfiguration(
        expectation_type="expect_column_values_to_be_between",
        kwargs={"column": "age", "min_value": 0, "max_value": 120}
    )
)

# 保存套件
suite.save()

4. Checkpoint（检查点）

Checkpoint是执行数据验证的触发器，定义了要验证的数据、使用的期望套件以及验证后的操作（如生成报告、发送通知）。

配置检查点示例：

# 创建检查点
checkpoint = context.checkpoints.add(
    Checkpoint(
        name="user_data_checkpoint",
        validation_definitions=[
            ValidationDefinition(
                name="user_data_validation",
                data=batch_definition,  # 先前定义的批处理定义
                suite=suite
            )
        ],
        actions=[
            UpdateDataDocsAction(name="update_data_docs")  # 验证后更新数据文档
        ]
    )
)

# 运行检查点
result = checkpoint.run()

# 检查验证结果
if result.success:
    print("数据质量检查通过！")
else:
    print("数据质量检查失败，请查看详细报告。")

5. ValidationResult（验证结果）

ValidationResult记录了每次验证的详细结果，包括每个期望的成功状态、实际值与期望值的对比等。

结果分析示例：

# 获取验证结果
validation_result = result.run_results[validation_definition_id]

# 分析失败的期望
failed_expectations = [
    exp for exp in validation_result.results 
    if not exp.success
]

# 打印失败详情
for exp in failed_expectations:
    print(f"期望失败: {exp.expectation_config.expectation_type}")
    print(f"字段: {exp.expectation_config.kwargs['column']}")
    print(f"实际值: {exp.result['observed_value']}")
    print(f"期望值: {exp.expectation_config.kwargs}")

6. DataDocs（数据文档）

DataDocs是自动生成的交互式数据质量报告，将抽象的验证结果转化为直观的可视化文档，便于团队协作和问题排查。

生成数据文档示例：

# 手动生成数据文档
context.build_data_docs()

# 查看数据文档
context.open_data_docs()

生成的文档包含：

数据集的统计概览
所有期望的验证结果
失败用例的详细记录
数据质量历史趋势

快速上手：10分钟构建你的第一个数据质量检查

环境准备

# 创建虚拟环境
python -m venv gx-env
source gx-env/bin/activate  # Linux/Mac
gx-env\Scripts\activate     # Windows

# 安装Great Expectations
pip install great_expectations

步骤1：初始化项目

# 创建项目目录
mkdir gx-demo && cd gx-demo

# 初始化GX项目
great_expectations init

初始化成功后，会生成以下核心文件结构：

gx-demo/
├── great_expectations/
│   ├── great_expectations.yml  # 主配置文件
│   ├── expectations/           # 期望套件存储
│   ├── checkpoints/            # 检查点配置
│   ├── validation_results/     # 验证结果
│   └── uncommitted/            # 临时文件
└── data/                       # 示例数据

步骤2：连接数据源

import great_expectations as gx
from great_expectations.datasource import PandasDatasource

context = gx.get_context()

# 添加Pandas数据源
datasource = context.data_sources.add_pandas(
    name="user_data_ds",
    base_directory="./data"  # 数据文件所在目录
)

# 添加数据资产（CSV文件）
asset = datasource.add_csv_asset(
    name="user_data_asset",
    batching_regex=r"users_(\d{4}-\d{2}-\d{2})\.csv"  # 按日期匹配文件
)

# 创建批处理定义
batch_definition = asset.add_batch_definition_whole_dataframe("daily_user_data")

步骤3：创建期望套件

# 创建新的期望套件
suite = context.suites.add(ExpectationSuite(name="user_data_suite"))

# 添加基本期望
suite.add_expectation(
    ExpectationConfiguration(
        expectation_type="expect_table_row_count_to_be_between",
        kwargs={"min_value": 100, "max_value": 100000}  # 确保数据量在合理范围
    )
)

suite.add_expectation(
    ExpectationConfiguration(
        expectation_type="expect_column_values_to_not_be_null",
        kwargs={"column": "user_id"}
    )
)

suite.add_expectation(
    ExpectationConfiguration(
        expectation_type="expect_column_values_to_be_between",
        kwargs={"column": "age", "min_value": 0, "max_value": 120}
    )
)

suite.add_expectation(
    ExpectationConfiguration(
        expectation_type="expect_column_values_to_match_regex",
        kwargs={
            "column": "email",
            "regex": r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$'
        }
    )
)

# 保存套件
suite.save()

步骤4：运行数据验证

# 创建检查点
checkpoint = context.checkpoints.add(
    Checkpoint(
        name="user_data_checkpoint",
        validation_definitions=[
            ValidationDefinition(
                name="user_data_validation",
                data=batch_definition,
                suite=suite
            )
        ],
        actions=[UpdateDataDocsAction(name="update_docs")]
    )
)

# 执行验证
result = checkpoint.run()

# 查看结果
if result.success:
    print("✅ 数据质量检查通过！")
else:
    print("❌ 数据质量检查失败！")
    context.open_data_docs()  # 打开数据文档查看详情

步骤5：集成到数据管道

Airflow集成示例：

from airflow import DAG
from airflow.operators.python import PythonOperator
from datetime import datetime
import great_expectations as gx

def run_data_quality_check():
    context = gx.get_context()
    checkpoint = context.checkpoints.get("user_data_checkpoint")
    result = checkpoint.run()
    if not result.success:
        raise Exception("数据质量检查失败")

with DAG(
    dag_id="user_data_pipeline",
    start_date=datetime(2023, 1, 1),
    schedule_interval="@daily"
):
    extract_task = PythonOperator(task_id="extract", python_callable=extract_data)
    transform_task = PythonOperator(task_id="transform", python_callable=transform_data)
    quality_check_task = PythonOperator(task_id="quality_check", python_callable=run_data_quality_check)
    load_task = PythonOperator(task_id="load", python_callable=load_data)

    extract_task >> transform_task >> quality_check_task >> load_task

企业级实践：构建完整的数据质量保障体系

1. 多环境配置管理

在实际项目中，通常需要区分开发、测试和生产环境的配置。GX支持通过环境变量和配置文件实现灵活的环境管理。

配置文件示例（great_expectations.yml）：

data_context_id: "my_data_context"

stores:
  expectations_store:
    class_name: ExpectationsStore
    store_backend:
      class_name: TupleFilesystemStoreBackend
      base_directory: "${GX_EXPECTATIONS_DIR:-expectations/}"

  validations_store:
    class_name: ValidationsStore
    store_backend:
      class_name: TupleFilesystemStoreBackend
      base_directory: "${GX_VALIDATIONS_DIR:-validations/}"

data_docs_sites:
  local_site:
    class_name: SiteBuilder
    show_how_to_buttons: false
    store_backend:
      class_name: TupleFilesystemStoreBackend
      base_directory: "${GX_DATA_DOCS_DIR:-uncommitted/data_docs/local_site/}"
    site_index_builder:
      class_name: DefaultSiteIndexBuilder

环境变量使用：

# 设置环境变量
export GX_EXPECTATIONS_DIR="/data/great_expectations/expectations"
export GX_VALIDATIONS_DIR="/data/great_expectations/validations"

# 运行GX命令
great_expectations checkpoint run user_data_checkpoint

2. 自定义数据文档

GX允许自定义数据文档的样式和内容，以满足企业品牌和特定需求。

自定义文档模板示例：

# 自定义数据文档渲染器
class CustomDataDocsRenderer(DefaultRenderer):
    def render(self, document):
        # 添加企业logo
        document.header = "<div class='company-logo'><img src='logo.png'></div>" + document.header
        # 自定义样式
        document.styles.append("""
            .success { background-color: #d4edda; }
            .failure { background-color: #f8d7da; }
            .company-logo { text-align: center; margin: 20px 0; }
        """)
        return document

# 配置数据文档站点
context.add_data_docs_site(
    site_name="custom_site",
    class_name="SiteBuilder",
    store_backend={
        "class_name": "TupleFilesystemStoreBackend",
        "base_directory": "uncommitted/data_docs/custom_site/"
    },
    renderer=CustomDataDocsRenderer
)

3. 异常监控与告警

结合通知工具（如Slack、Email）实现数据质量异常的及时告警。

Slack告警配置：

# 添加Slack通知动作
slack_action = SlackNotificationAction(
    name="slack_notification",
    slack_webhook="${SLACK_WEBHOOK_URL}",
    notify_on="failure",  # 仅在失败时通知
    show_failed_expectations=True,
    slack_channel="#data-quality-alerts"
)

# 更新检查点
checkpoint = context.checkpoints.get("user_data_checkpoint")
checkpoint.actions.append(slack_action)
checkpoint.save()

4. 数据质量指标的长期追踪

通过将验证结果存储到数据库，实现数据质量指标的长期追踪和趋势分析。

结果存储配置：

stores:
  validations_store:
    class_name: ValidationsStore
    store_backend:
      class_name: DatabaseStoreBackend
      credentials:
        drivername: postgresql
        host: ${DB_HOST}
        port: ${DB_PORT}
        username: ${DB_USER}
        password: ${DB_PASSWORD}
        database: ${DB_NAME}

质量趋势分析示例：

# 从数据库加载历史验证结果
from sqlalchemy import create_engine
import pandas as pd

engine = create_engine("postgresql://user:password@host:port/dbname")
query = """
    SELECT 
        validation_time, 
        COUNT(*) as total_expectations,
        SUM(CASE WHEN success THEN 1 ELSE 0 END) as successful_expectations,
        SUM(CASE WHEN NOT success THEN 1 ELSE 0 END) as failed_expectations
    FROM validations
    WHERE suite_name = 'user_data_suite'
    GROUP BY validation_time
    ORDER BY validation_time
"""
df = pd.read_sql(query, engine)

# 绘制成功率趋势图
import matplotlib.pyplot as plt
df["success_rate"] = df["successful_expectations"] / df["total_expectations"]
plt.plot(df["validation_time"], df["success_rate"])
plt.title("数据质量成功率趋势")
plt.xlabel("时间")
plt.ylabel("成功率")
plt.ylim(0, 1.0)
plt.grid(True)
plt.show()

高级功能：释放Great Expectations的全部潜力

1. 基于机器学习的数据质量监控

GX的Profiler功能可以自动分析数据集特征，生成初始的期望套件，大大减少手动编写规则的工作量。

自动生成期望示例：

# 创建数据探查器
profiler = context.profilers.create(
    Profiler(
        name="user_data_profiler",
        data=batch_definition,
        profiler_config=ProfilerConfig(
            variables={
                "threshold": 0.95  # 置信阈值
            }
        )
    )
)

# 运行探查器生成期望套件
suite = profiler.run()
suite.name = "auto_generated_user_suite"
suite.save()

# 查看生成的期望
for exp in suite.expectations:
    print(f"自动生成期望: {exp.expectation_config.expectation_type}")

2. 自定义Expectation开发

对于复杂的业务规则，可以开发自定义Expectation，扩展GX的能力边界。

自定义列间关系Expectation：

class ExpectColumnSumToMatchOtherColumn(ColumnPairMapExpectation):
    """验证一列的总和是否等于另一列的值"""
    
    def _validate(self, column_A, column_B, **kwargs):
        # 计算列A的总和
        sum_A = column_A.sum()
        # 检查列B的所有值是否等于sum_A
        return column_B == sum_A

    examples = [
        {
            "data": {
                "col_a": [1, 2, 3],
                "col_b": [6, 6, 6]  # col_a的总和是6
            },
            "tests": [
                {
                    "title": "sum_matches",
                    "exact_match_out": False,
                    "in": {"column_A": "col_a", "column_B": "col_b"},
                    "out": {"success": True}
                }
            ]
        }
    ]

# 注册并测试自定义期望
context.register_expectation(ExpectColumnSumToMatchOtherColumn)

3. 数据版本控制集成

结合DVC或Git，实现数据和期望套件的版本控制，确保可追溯性。

Git集成工作流：

# 初始化Git仓库
git init
git add great_expectations/expectations/ user_data_suite.json
git commit -m "Initial commit of user data expectations"

# 创建新的分支用于期望更新
git checkout -b feature/new-expectations

# 添加新的期望并提交
git add great_expectations/expectations/ user_data_suite.json
git commit -m "Add expectation for email format validation"

# 合并到主分支
git checkout main
git merge feature/new-expectations

常见问题与最佳实践

性能优化策略

批量验证：对于大型数据集，使用批量处理减少内存占用。

采样验证：在开发阶段对数据采样验证，提高迭代速度。

batch_definition = asset.add_batch_definition(
    "sampled_data",
    partitioner=RandomSampler(sample_ratio=0.1)  # 仅验证10%的数据
)

并行执行：利用Spark等分布式框架实现并行验证。
增量验证：仅验证新增或变更的数据。

常见错误排查

数据连接失败：
- 检查数据源配置是否正确
- 验证访问权限和网络连接
- 使用context.test_yaml_config()测试配置
期望不生效：
- 检查期望参数是否正确
- 确认数据类型匹配
- 查看详细日志context.logger.info()
性能问题：
- 使用profiler分析慢查询
- 优化自定义期望的实现
- 增加资源配置或使用分布式执行

团队协作最佳实践

期望即代码：将期望套件纳入版本控制，进行代码审查。
文档即代码：数据文档与代码同步更新，保持一致性。
自动化测试：在CI/CD管道中集成GX验证，确保代码变更不会引入数据质量问题。
定期回顾：定期审查数据质量指标，优化期望规则。

总结与展望：数据质量工程的未来

Great Expectations不仅是一个工具，更是一种数据质量工程的方法论。它将软件 engineering的最佳实践引入数据领域，让数据团队能够像构建可靠软件一样构建可靠的数据系统。

数据质量工程的成熟度模型：

stateDiagram-v2
    [*] --> 被动响应
    被动响应 --> 主动防御 : 实施基本验证
    主动防御 --> 系统监控 : 自动化与告警
    系统监控 --> 预测优化 : 趋势分析与异常预测
    预测优化 --> [*]

随着AI和机器学习技术的发展，数据质量保障将向更智能、更自动化的方向演进。未来，我们可以期待：

智能异常检测：基于历史数据自动识别异常模式，减少人工规则编写。
自适应阈值：根据数据分布变化自动调整验证阈值，适应业务季节性波动。
跨组织协作：数据质量规则的共享与复用，形成行业级的最佳实践库。

通过Great Expectations，数据团队可以构建更加健壮、可靠的数据系统，为业务决策提供坚实的数据基础。立即开始你的数据质量之旅，体验数据可靠性带来的变革吧！

延伸学习资源：

官方文档：Great Expectations Documentation
GitHub仓库：https://gitcode.com/GitHub_Trending/gr/great_expectations
社区论坛：Great Expectations Discourse
视频教程：GX YouTube Channel

交流与支持：

Slack社区：加入#great-expectations频道
定期工作坊：关注官方活动页面参与线上培训
贡献代码：通过GitHub提交PR，参与项目开发

great_expectations

Always know what to expect from your data.

项目地址：https://gitcode.com/GitHub_Trending/gr/great_expectations

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

350

203

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

Great Expectations：数据质量测试的革命性工具

数据质量的隐形危机：你真的了解你的数据吗？

核心价值：为何Great Expectations成为数据团队的必备工具？

打破数据质量的三大困境

四大核心优势

核心概念解析：构建数据质量保障体系的基石

数据验证的三大支柱

1. DataContext（数据上下文）

2. Expectation（期望）

3. ExpectationSuite（期望套件）

4. Checkpoint（检查点）

5. ValidationResult（验证结果）

6. DataDocs（数据文档）

快速上手：10分钟构建你的第一个数据质量检查

环境准备

步骤1：初始化项目

步骤2：连接数据源

步骤3：创建期望套件

步骤4：运行数据验证

步骤5：集成到数据管道

企业级实践：构建完整的数据质量保障体系

1. 多环境配置管理

2. 自定义数据文档

3. 异常监控与告警

4. 数据质量指标的长期追踪

高级功能：释放Great Expectations的全部潜力

1. 基于机器学习的数据质量监控

2. 自定义Expectation开发

3. 数据版本控制集成

常见问题与最佳实践

性能优化策略

常见错误排查

团队协作最佳实践

总结与展望：数据质量工程的未来

热门内容推荐

最新内容推荐

项目优选

Great Expectations：数据质量测试的革命性工具

数据质量的隐形危机：你真的了解你的数据吗？

核心价值：为何Great Expectations成为数据团队的必备工具？

打破数据质量的三大困境

四大核心优势

核心概念解析：构建数据质量保障体系的基石

数据验证的三大支柱

1. DataContext（数据上下文）

2. Expectation（期望）

3. ExpectationSuite（期望套件）

4. Checkpoint（检查点）

5. ValidationResult（验证结果）

6. DataDocs（数据文档）

快速上手：10分钟构建你的第一个数据质量检查

环境准备

步骤1：初始化项目

步骤2：连接数据源

步骤3：创建期望套件

步骤4：运行数据验证

步骤5：集成到数据管道

企业级实践：构建完整的数据质量保障体系

1. 多环境配置管理

2. 自定义数据文档

3. 异常监控与告警

4. 数据质量指标的长期追踪

高级功能：释放Great Expectations的全部潜力

1. 基于机器学习的数据质量监控

2. 自定义Expectation开发

3. 数据版本控制集成

常见问题与最佳实践

性能优化策略

常见错误排查

团队协作最佳实践

总结与展望：数据质量工程的未来

相关内容推荐

热门内容推荐

最新内容推荐

项目优选