Great Expectations 数据验证：范围验证与计算列处理实践

2025-05-22 07:18:30作者：贡沫苏Truman

在数据质量保障领域，范围验证（如大于、小于等比较操作）是最基础也最常用的验证手段之一。作为专业的数据质量工具，Great Expectations 提供了完善的解决方案来处理这类需求，同时也支持更复杂的计算列验证场景。

一、基础范围验证实现

Great Expectations 通过内置的 expect_column_values_to_be_between 验证器原生支持数值范围验证。该验证器可以同时设置上下界，实现三种典型场景：

单边验证（如大于100）：

validator.expect_column_values_to_be_between(
    column="price",
    min_value=100,
    strict_min=True  # 表示不包含边界值100
)

区间验证（如20-100之间）：

validator.expect_column_values_to_be_between(
    column="age",
    min_value=20,
    max_value=100
)

无限区间（如小于等于500）：

validator.expect_column_values_to_be_between(
    column="score",
    max_value=500
)

二、计算列验证方案

对于需要验证派生列的场景（如C列=A列×B列），虽然系统没有预置验证器，但可以通过以下两种方式实现：

方案1：临时列+标准验证

# 先创建临时计算列
df["temp_calc"] = df["column_a"] * df["column_b"]

# 然后验证计算列与目标列一致
validator.expect_column_pair_values_to_be_equal(
    column_A="temp_calc",
    column_B="column_c"
)

方案2：自定义验证器（推荐生产环境使用）

通过继承 Expectation 基类开发定制验证器，可以封装复杂的业务逻辑：

class ExpectColumnProductToEqual(ColumnPairMapExpectation):
    # 实现核心计算逻辑
    def _validate(self, configuration, runtime_configuration):
        actual = df[column_A] * df[column_B]
        expected = df[column_C]
        return {
            "success": actual.equals(expected),
            "result": {"observed_value": "Product validation"}
        }