首页
/ Great Expectations 1.2.4版本中Pandas数据验证的最佳实践

Great Expectations 1.2.4版本中Pandas数据验证的最佳实践

2025-05-22 22:21:32作者:牧宁李

在Great Expectations 1.2.4版本中,数据验证的方式发生了重大变化,特别是在处理Pandas DataFrame时。本文将为开发者详细介绍新版本中的正确使用方法。

版本变化带来的重要更新

Great Expectations 1.2.4版本引入了一些重要的API变化,旨在简化工作流程。最显著的变化包括:

  1. 移除了对RuntimeBatchRequest的直接支持
  2. 弃用了get_validator方法
  3. 引入了更简洁的验证定义方式

正确的Pandas DataFrame验证方法

在新版本中,验证Pandas DataFrame的正确流程如下:

import great_expectations as gx
import pandas as pd

# 创建临时上下文
context = gx.get_context(mode="ephemeral")

# 配置数据源和资产
name = "main"
bd = (
    context.data_sources.add_pandas(name)
    .add_dataframe_asset(name)
    .add_batch_definition_whole_dataframe(name)
)

# 创建期望套件
suite = context.suites.add(
    gx.ExpectationSuite(
        name,
        expectations=[
            gx.expectations.ExpectColumnDistinctValuesToBeInSet(
                column="a", 
                value_set=[1, 2, 3]
            ),
            gx.expectations.ExpectColumnMaxToBeBetween(
                column="a", 
                min_value=1, 
                max_value=2
            ),
        ],
    )
)

# 创建验证定义
vd = context.validation_definitions.add(
    gx.ValidationDefinition(
        name=name, 
        data=bd, 
        suite=suite
    )
)

# 配置检查点
cp = context.checkpoints.add(
    gx.Checkpoint(
        name=name,
        validation_definitions=[vd],
        actions=[gx.checkpoint.actions.UpdateDataDocsAction(name=name)],
    )
)

# 运行验证
cp.run(batch_parameters={"dataframe": pd.DataFrame({"a": [1, 2, 3]})})

# 查看数据文档
context.open_data_docs()

关键组件解析

  1. 上下文(Context): 使用get_context方法创建,mode="ephemeral"表示临时上下文,不会持久化配置。

  2. 数据源配置: 通过add_pandas方法添加Pandas数据源,然后定义数据资产和批处理定义。

  3. 期望套件(ExpectationSuite): 包含一组数据质量检查规则,如列值范围、唯一性等验证。

  4. 验证定义(ValidationDefinition): 将数据源和期望套件关联起来,形成可执行的验证任务。

  5. 检查点(Checkpoint): 封装验证逻辑,可以配置验证后的操作,如更新数据文档。

常见问题解决

开发者在使用过程中可能会遇到以下问题:

  1. RuntimeBatchRequest错误: 新版本不再推荐使用RuntimeBatchRequest,应该直接通过检查点运行验证。

  2. get_validator弃用: 该方法已被标记为弃用,应该使用验证定义和检查点的组合来实现相同功能。

  3. 数据传递方式: 在运行检查点时,通过batch_parameters参数传递DataFrame数据。

最佳实践建议

  1. 对于简单的验证场景,可以直接使用上述流程。

  2. 对于复杂项目,考虑将配置持久化,移除mode="ephemeral"参数。

  3. 合理组织期望规则,可以按业务领域分组创建多个期望套件。

  4. 利用检查点的actions参数配置自动化操作,如发送通知或更新数据质量报告。

通过遵循这些最佳实践,开发者可以充分利用Great Expectations 1.2.4版本的新特性,构建高效可靠的数据质量验证流程。

登录后查看全文
热门项目推荐
相关项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
22
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
154
1.98 K
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
405
387
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
941
555
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Python
75
70
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
992
395
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
509
44
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
344
1.32 K
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
194
279