首页
/ Great Expectations 1.2.4版本中Pandas数据验证的最佳实践

Great Expectations 1.2.4版本中Pandas数据验证的最佳实践

2025-05-22 06:43:54作者:牧宁李

在Great Expectations 1.2.4版本中,数据验证的方式发生了重大变化,特别是在处理Pandas DataFrame时。本文将为开发者详细介绍新版本中的正确使用方法。

版本变化带来的重要更新

Great Expectations 1.2.4版本引入了一些重要的API变化,旨在简化工作流程。最显著的变化包括:

  1. 移除了对RuntimeBatchRequest的直接支持
  2. 弃用了get_validator方法
  3. 引入了更简洁的验证定义方式

正确的Pandas DataFrame验证方法

在新版本中,验证Pandas DataFrame的正确流程如下:

import great_expectations as gx
import pandas as pd

# 创建临时上下文
context = gx.get_context(mode="ephemeral")

# 配置数据源和资产
name = "main"
bd = (
    context.data_sources.add_pandas(name)
    .add_dataframe_asset(name)
    .add_batch_definition_whole_dataframe(name)
)

# 创建期望套件
suite = context.suites.add(
    gx.ExpectationSuite(
        name,
        expectations=[
            gx.expectations.ExpectColumnDistinctValuesToBeInSet(
                column="a", 
                value_set=[1, 2, 3]
            ),
            gx.expectations.ExpectColumnMaxToBeBetween(
                column="a", 
                min_value=1, 
                max_value=2
            ),
        ],
    )
)

# 创建验证定义
vd = context.validation_definitions.add(
    gx.ValidationDefinition(
        name=name, 
        data=bd, 
        suite=suite
    )
)

# 配置检查点
cp = context.checkpoints.add(
    gx.Checkpoint(
        name=name,
        validation_definitions=[vd],
        actions=[gx.checkpoint.actions.UpdateDataDocsAction(name=name)],
    )
)

# 运行验证
cp.run(batch_parameters={"dataframe": pd.DataFrame({"a": [1, 2, 3]})})

# 查看数据文档
context.open_data_docs()

关键组件解析

  1. 上下文(Context): 使用get_context方法创建,mode="ephemeral"表示临时上下文,不会持久化配置。

  2. 数据源配置: 通过add_pandas方法添加Pandas数据源,然后定义数据资产和批处理定义。

  3. 期望套件(ExpectationSuite): 包含一组数据质量检查规则,如列值范围、唯一性等验证。

  4. 验证定义(ValidationDefinition): 将数据源和期望套件关联起来,形成可执行的验证任务。

  5. 检查点(Checkpoint): 封装验证逻辑,可以配置验证后的操作,如更新数据文档。

常见问题解决

开发者在使用过程中可能会遇到以下问题:

  1. RuntimeBatchRequest错误: 新版本不再推荐使用RuntimeBatchRequest,应该直接通过检查点运行验证。

  2. get_validator弃用: 该方法已被标记为弃用,应该使用验证定义和检查点的组合来实现相同功能。

  3. 数据传递方式: 在运行检查点时,通过batch_parameters参数传递DataFrame数据。

最佳实践建议

  1. 对于简单的验证场景,可以直接使用上述流程。

  2. 对于复杂项目,考虑将配置持久化,移除mode="ephemeral"参数。

  3. 合理组织期望规则,可以按业务领域分组创建多个期望套件。

  4. 利用检查点的actions参数配置自动化操作,如发送通知或更新数据质量报告。

通过遵循这些最佳实践,开发者可以充分利用Great Expectations 1.2.4版本的新特性,构建高效可靠的数据质量验证流程。

登录后查看全文
热门项目推荐
相关项目推荐