首页
/ Great Expectations 1.2.4版本中Pandas数据验证的最佳实践

Great Expectations 1.2.4版本中Pandas数据验证的最佳实践

2025-05-22 06:55:23作者:牧宁李

在Great Expectations 1.2.4版本中,数据验证的方式发生了重大变化,特别是在处理Pandas DataFrame时。本文将为开发者详细介绍新版本中的正确使用方法。

版本变化带来的重要更新

Great Expectations 1.2.4版本引入了一些重要的API变化,旨在简化工作流程。最显著的变化包括:

  1. 移除了对RuntimeBatchRequest的直接支持
  2. 弃用了get_validator方法
  3. 引入了更简洁的验证定义方式

正确的Pandas DataFrame验证方法

在新版本中,验证Pandas DataFrame的正确流程如下:

import great_expectations as gx
import pandas as pd

# 创建临时上下文
context = gx.get_context(mode="ephemeral")

# 配置数据源和资产
name = "main"
bd = (
    context.data_sources.add_pandas(name)
    .add_dataframe_asset(name)
    .add_batch_definition_whole_dataframe(name)
)

# 创建期望套件
suite = context.suites.add(
    gx.ExpectationSuite(
        name,
        expectations=[
            gx.expectations.ExpectColumnDistinctValuesToBeInSet(
                column="a", 
                value_set=[1, 2, 3]
            ),
            gx.expectations.ExpectColumnMaxToBeBetween(
                column="a", 
                min_value=1, 
                max_value=2
            ),
        ],
    )
)

# 创建验证定义
vd = context.validation_definitions.add(
    gx.ValidationDefinition(
        name=name, 
        data=bd, 
        suite=suite
    )
)

# 配置检查点
cp = context.checkpoints.add(
    gx.Checkpoint(
        name=name,
        validation_definitions=[vd],
        actions=[gx.checkpoint.actions.UpdateDataDocsAction(name=name)],
    )
)

# 运行验证
cp.run(batch_parameters={"dataframe": pd.DataFrame({"a": [1, 2, 3]})})

# 查看数据文档
context.open_data_docs()

关键组件解析

  1. 上下文(Context): 使用get_context方法创建,mode="ephemeral"表示临时上下文,不会持久化配置。

  2. 数据源配置: 通过add_pandas方法添加Pandas数据源,然后定义数据资产和批处理定义。

  3. 期望套件(ExpectationSuite): 包含一组数据质量检查规则,如列值范围、唯一性等验证。

  4. 验证定义(ValidationDefinition): 将数据源和期望套件关联起来,形成可执行的验证任务。

  5. 检查点(Checkpoint): 封装验证逻辑,可以配置验证后的操作,如更新数据文档。

常见问题解决

开发者在使用过程中可能会遇到以下问题:

  1. RuntimeBatchRequest错误: 新版本不再推荐使用RuntimeBatchRequest,应该直接通过检查点运行验证。

  2. get_validator弃用: 该方法已被标记为弃用,应该使用验证定义和检查点的组合来实现相同功能。

  3. 数据传递方式: 在运行检查点时,通过batch_parameters参数传递DataFrame数据。

最佳实践建议

  1. 对于简单的验证场景,可以直接使用上述流程。

  2. 对于复杂项目,考虑将配置持久化,移除mode="ephemeral"参数。

  3. 合理组织期望规则,可以按业务领域分组创建多个期望套件。

  4. 利用检查点的actions参数配置自动化操作,如发送通知或更新数据质量报告。

通过遵循这些最佳实践,开发者可以充分利用Great Expectations 1.2.4版本的新特性,构建高效可靠的数据质量验证流程。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
23
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
225
2.27 K
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
flutter_flutterflutter_flutter
暂无简介
Dart
526
116
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
987
583
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
351
1.42 K
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
61
17
GLM-4.6GLM-4.6
GLM-4.6在GLM-4.5基础上全面升级:200K超长上下文窗口支持复杂任务,代码性能大幅提升,前端页面生成更优。推理能力增强且支持工具调用,智能体表现更出色,写作风格更贴合人类偏好。八项公开基准测试显示其全面超越GLM-4.5,比肩DeepSeek-V3.1-Terminus等国内外领先模型。【此简介由AI生成】
Jinja
47
0
giteagitea
喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
17
0
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
JavaScript
212
287