Great Expectations 1.4.0版本发布：数据质量监控工具的重大更新

2025-06-05 21:12:35作者：冯爽妲Honey

Great Expectations是一个开源的数据质量监控工具，它帮助数据工程师和分析师定义、记录和验证数据质量预期。通过提供一套完整的测试框架，Great Expectations能够确保数据在管道中的每个阶段都符合预期，从而减少数据错误和异常。

核心功能增强

新增列采样值指标

1.4.0版本引入了ColumnSampleValues指标，这是一个重要的数据质量监控功能。该指标允许用户从数据列中随机采样值，这对于理解数据分布和识别异常值特别有用。在实际应用中，数据团队可以通过这个功能快速检查数据样本，而不需要处理整个数据集，大大提高了数据验证的效率。

正则表达式匹配指标扩展

新版本增加了两个与正则表达式相关的重要指标：

ColumnValuesMatchRegexCount：计算列中匹配指定正则表达式的值数量
ColumnValuesMatchRegexValues：返回列中匹配指定正则表达式的具体值

这些功能扩展了Great Expectations在数据验证方面的能力，特别是在处理文本数据时，可以更精确地验证数据格式和内容。例如，可以验证电子邮件地址、电话号码或其他具有特定格式的数据是否符合预期模式。

数据源支持扩展

1.4.0版本显著增强了对Redshift数据仓库的支持：

将Redshift添加到支持的数据库列表中
新增了gx-redshift额外依赖包，简化了Redshift集成
完善了Redshift相关的测试套件

这些改进使得使用Amazon Redshift作为数据源的用户能够更顺畅地集成Great Expectations到他们的数据工作流中。

问题修复与稳定性提升

本次发布修复了一个重要的JSON序列化问题。当使用集合(set)或元组(tuple)作为value_set参数时，之前的版本会在验证过程中失败。这个修复确保了更灵活的数据验证方式，特别是在处理离散值集合时更加可靠。

文档与开发者体验改进

更新了调度说明文档，提供了更清晰的任务调度指南
修正了默认Great Expectations目录的文档说明
改进了文档页面的用户行为跟踪，有助于团队更好地理解用户需求

技术架构优化

新增ColumnDistinctValues指标，用于获取列中的唯一值
改进了单指标计算时的类型处理，增强了类型安全性
实现了ColumnValuesNotMatchRegexValues指标，补充了正则表达式验证的反向功能

这些底层架构的改进不仅增强了系统的稳定性，也为开发者提供了更丰富的工具集来构建复杂的数据质量检查规则。

总结

Great Expectations 1.4.0版本通过新增多项核心功能、扩展数据源支持、修复关键问题以及优化开发者体验，进一步巩固了其作为数据质量监控首选工具的地位。特别是对Redshift的增强支持和正则表达式相关指标的扩展，使得该版本成为处理现代数据栈中常见场景的更强大工具。

对于已经在使用Great Expectations的团队，建议评估这些新功能如何能够优化现有的数据质量流程；对于考虑采用数据质量解决方案的组织，1.4.0版本提供了更全面的功能集来满足各种数据验证需求。

great_expectations

Always know what to expect from your data.

项目地址：https://gitcode.com/GitHub_Trending/gr/great_expectations

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

457

439

flutter_flutter

用户可使用该项目在 OpenHarmony 平台开发应用，支持通过 IDE 或终端用 Flutter Tools 指令编译构建，基于 Flutter 3.27.4 版本，新增 impeller-vulkan 渲染模式，兼容多种开发指令与环境配置。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

998

609

Great Expectations 1.4.0版本发布：数据质量监控工具的重大更新

核心功能增强

新增列采样值指标

正则表达式匹配指标扩展

数据源支持扩展

问题修复与稳定性提升

文档与开发者体验改进

技术架构优化

总结

热门内容推荐

最新内容推荐

项目优选

Great Expectations 1.4.0版本发布：数据质量监控工具的重大更新

核心功能增强

新增列采样值指标

正则表达式匹配指标扩展

数据源支持扩展

问题修复与稳定性提升

文档与开发者体验改进

技术架构优化

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选