Great Expectations中期望配置冲突问题的分析与修复

2025-05-22 18:11:07作者：戚魁泉Nursing

great_expectations

Always know what to expect from your data.

项目地址：https://gitcode.com/GitHub_Trending/gr/great_expectations

问题背景

在Great Expectations数据质量验证工具中，用户发现无法对同一列同时添加"值唯一性"和"非空值"两种期望验证。这是一个典型的数据验证场景，但在当前版本(1.2.4)中存在实现缺陷。

问题现象

当用户尝试为"sku_id"列同时添加以下两种期望时：

ExpectColumnValuesToBeUnique - 验证列值唯一
ExpectColumnValuesToNotBeNull - 验证列值非空

系统仅保留了第一个期望配置，第二个期望被错误地视为重复项而忽略。这导致最终生成的期望套件(expectation suite)中只包含唯一性验证，缺失了非空验证。

技术分析

问题的根源在于Great Expectations内部用于比较期望配置是否相等的_expectations_are_equalish方法存在逻辑缺陷。该方法当前仅比较两个期望配置的参数字典，而忽略了期望类型(expectation_type)这一关键属性。

具体表现为：

当比较ExpectColumnValuesToBeUnique和ExpectColumnValuesToNotBeNull时
尽管它们的expectation_type不同("expect_column_values_to_be_unique" vs "expect_column_values_to_not_be_null")
但由于它们应用于同一列("sku_id")
方法错误地返回True，认为它们是相同的期望

修复方案

修复的核心思路是在比较期望配置时，必须同时考虑期望类型和配置参数。具体修改为：

@staticmethod
def _expectations_are_equalish(expectation_a: Expectation, expectation_b: Expectation) -> bool:
    exclude_params = {"id", "rendered_content", "notes", "meta"}
    return (
        expectation_a.expectation_type == expectation_b.expectation_type and
        expectation_a.dict(exclude=exclude_params) == expectation_b.dict(exclude=exclude_params)
    )

这一修改确保：

首先检查期望类型是否相同
然后比较排除元数据后的参数字典
只有两者都相同时才认为是相同的期望

影响与意义

该修复解决了以下重要问题：

允许用户对同一列配置多种不同类型的验证规则
保持了期望配置的唯一性判断准确性
提升了Great Expectations在复杂数据质量验证场景下的实用性

对于数据工程师和分析师而言，这意味着可以更灵活地构建全面的数据质量检查体系，确保数据在各个维度上都符合预期要求。

最佳实践建议

在实际使用Great Expectations时，建议：

明确区分不同维度的数据质量要求
对关键字段考虑多重验证（如唯一性+非空+格式验证）
定期检查期望套件配置是否完整覆盖业务需求
在升级版本时验证复杂期望组合是否正常工作

这一修复体现了Great Expectations项目对数据质量验证严谨性的持续追求，也为用户提供了更强大的数据治理工具。

great_expectations

Always know what to expect from your data.

项目地址：https://gitcode.com/GitHub_Trending/gr/great_expectations

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理