首页
/ Great Expectations 1.2.4版本中Pandas数据验证的最佳实践

Great Expectations 1.2.4版本中Pandas数据验证的最佳实践

2025-05-22 22:21:32作者:牧宁李

在Great Expectations 1.2.4版本中,数据验证的方式发生了重大变化,特别是在处理Pandas DataFrame时。本文将为开发者详细介绍新版本中的正确使用方法。

版本变化带来的重要更新

Great Expectations 1.2.4版本引入了一些重要的API变化,旨在简化工作流程。最显著的变化包括:

  1. 移除了对RuntimeBatchRequest的直接支持
  2. 弃用了get_validator方法
  3. 引入了更简洁的验证定义方式

正确的Pandas DataFrame验证方法

在新版本中,验证Pandas DataFrame的正确流程如下:

import great_expectations as gx
import pandas as pd

# 创建临时上下文
context = gx.get_context(mode="ephemeral")

# 配置数据源和资产
name = "main"
bd = (
    context.data_sources.add_pandas(name)
    .add_dataframe_asset(name)
    .add_batch_definition_whole_dataframe(name)
)

# 创建期望套件
suite = context.suites.add(
    gx.ExpectationSuite(
        name,
        expectations=[
            gx.expectations.ExpectColumnDistinctValuesToBeInSet(
                column="a", 
                value_set=[1, 2, 3]
            ),
            gx.expectations.ExpectColumnMaxToBeBetween(
                column="a", 
                min_value=1, 
                max_value=2
            ),
        ],
    )
)

# 创建验证定义
vd = context.validation_definitions.add(
    gx.ValidationDefinition(
        name=name, 
        data=bd, 
        suite=suite
    )
)

# 配置检查点
cp = context.checkpoints.add(
    gx.Checkpoint(
        name=name,
        validation_definitions=[vd],
        actions=[gx.checkpoint.actions.UpdateDataDocsAction(name=name)],
    )
)

# 运行验证
cp.run(batch_parameters={"dataframe": pd.DataFrame({"a": [1, 2, 3]})})

# 查看数据文档
context.open_data_docs()

关键组件解析

  1. 上下文(Context): 使用get_context方法创建,mode="ephemeral"表示临时上下文,不会持久化配置。

  2. 数据源配置: 通过add_pandas方法添加Pandas数据源,然后定义数据资产和批处理定义。

  3. 期望套件(ExpectationSuite): 包含一组数据质量检查规则,如列值范围、唯一性等验证。

  4. 验证定义(ValidationDefinition): 将数据源和期望套件关联起来,形成可执行的验证任务。

  5. 检查点(Checkpoint): 封装验证逻辑,可以配置验证后的操作,如更新数据文档。

常见问题解决

开发者在使用过程中可能会遇到以下问题:

  1. RuntimeBatchRequest错误: 新版本不再推荐使用RuntimeBatchRequest,应该直接通过检查点运行验证。

  2. get_validator弃用: 该方法已被标记为弃用,应该使用验证定义和检查点的组合来实现相同功能。

  3. 数据传递方式: 在运行检查点时,通过batch_parameters参数传递DataFrame数据。

最佳实践建议

  1. 对于简单的验证场景,可以直接使用上述流程。

  2. 对于复杂项目,考虑将配置持久化,移除mode="ephemeral"参数。

  3. 合理组织期望规则,可以按业务领域分组创建多个期望套件。

  4. 利用检查点的actions参数配置自动化操作,如发送通知或更新数据质量报告。

通过遵循这些最佳实践,开发者可以充分利用Great Expectations 1.2.4版本的新特性,构建高效可靠的数据质量验证流程。

登录后查看全文
热门项目推荐
相关项目推荐

最新内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
178
262
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
868
513
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
183
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
268
308
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
373
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
note-gennote-gen
一款跨平台的 Markdown AI 笔记软件,致力于使用 AI 建立记录和写作的桥梁。
TSX
83
4
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
599
58
GitNextGitNext
基于可以运行在OpenHarmony的git,提供git客户端操作能力
ArkTS
10
3