Great Expectations 1.2.4版本中Pandas数据验证的最佳实践

2025-05-22 06:42:38作者：牧宁李

great_expectations

Always know what to expect from your data.

项目地址：https://gitcode.com/GitHub_Trending/gr/great_expectations

在Great Expectations 1.2.4版本中，数据验证的方式发生了重大变化，特别是在处理Pandas DataFrame时。本文将为开发者详细介绍新版本中的正确使用方法。

版本变化带来的重要更新

Great Expectations 1.2.4版本引入了一些重要的API变化，旨在简化工作流程。最显著的变化包括：

移除了对RuntimeBatchRequest的直接支持
弃用了get_validator方法
引入了更简洁的验证定义方式

正确的Pandas DataFrame验证方法

在新版本中，验证Pandas DataFrame的正确流程如下：

import great_expectations as gx
import pandas as pd

# 创建临时上下文
context = gx.get_context(mode="ephemeral")

# 配置数据源和资产
name = "main"
bd = (
    context.data_sources.add_pandas(name)
    .add_dataframe_asset(name)
    .add_batch_definition_whole_dataframe(name)
)

# 创建期望套件
suite = context.suites.add(
    gx.ExpectationSuite(
        name,
        expectations=[
            gx.expectations.ExpectColumnDistinctValuesToBeInSet(
                column="a", 
                value_set=[1, 2, 3]
            ),
            gx.expectations.ExpectColumnMaxToBeBetween(
                column="a", 
                min_value=1, 
                max_value=2
            ),
        ],
    )
)

# 创建验证定义
vd = context.validation_definitions.add(
    gx.ValidationDefinition(
        name=name, 
        data=bd, 
        suite=suite
    )
)

# 配置检查点
cp = context.checkpoints.add(
    gx.Checkpoint(
        name=name,
        validation_definitions=[vd],
        actions=[gx.checkpoint.actions.UpdateDataDocsAction(name=name)],
    )
)

# 运行验证
cp.run(batch_parameters={"dataframe": pd.DataFrame({"a": [1, 2, 3]})})

# 查看数据文档
context.open_data_docs()

关键组件解析

上下文(Context): 使用get_context方法创建，mode="ephemeral"表示临时上下文，不会持久化配置。
数据源配置: 通过add_pandas方法添加Pandas数据源，然后定义数据资产和批处理定义。
期望套件(ExpectationSuite): 包含一组数据质量检查规则，如列值范围、唯一性等验证。
验证定义(ValidationDefinition): 将数据源和期望套件关联起来，形成可执行的验证任务。
检查点(Checkpoint): 封装验证逻辑，可以配置验证后的操作，如更新数据文档。

常见问题解决

开发者在使用过程中可能会遇到以下问题：

RuntimeBatchRequest错误: 新版本不再推荐使用RuntimeBatchRequest，应该直接通过检查点运行验证。
get_validator弃用: 该方法已被标记为弃用，应该使用验证定义和检查点的组合来实现相同功能。
数据传递方式: 在运行检查点时，通过batch_parameters参数传递DataFrame数据。

最佳实践建议

对于简单的验证场景，可以直接使用上述流程。
对于复杂项目，考虑将配置持久化，移除mode="ephemeral"参数。
合理组织期望规则，可以按业务领域分组创建多个期望套件。
利用检查点的actions参数配置自动化操作，如发送通知或更新数据质量报告。

通过遵循这些最佳实践，开发者可以充分利用Great Expectations 1.2.4版本的新特性，构建高效可靠的数据质量验证流程。

great_expectations

Always know what to expect from your data.

项目地址：https://gitcode.com/GitHub_Trending/gr/great_expectations

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

昇腾LLM分布式训练框架

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter