Deequ 2.0.10版本发布：数据质量检测能力再升级

2025-06-15 08:55:06作者：郜逊炳

项目简介

Deequ是AWS开源的一个用于大数据质量检测的库，它构建在Apache Spark之上，为大规模数据集提供了简单易用的数据质量验证工具。Deequ允许用户定义"数据质量约束"，并自动计算指标来验证这些约束是否满足，帮助数据工程师和数据科学家确保其数据的正确性和完整性。

2.0.10版本核心更新

新增唯一性检查功能

在2.0.10版本中，Deequ引入了一个重要的新功能——唯一性检查。这项功能允许用户验证数据集中的特定列或列组合是否包含唯一值。在实际应用中，这非常有用，比如验证用户ID、交易ID等关键字段是否确实唯一，避免数据重复问题。

DQDL规则集支持

本次更新还引入了对DQDL（Data Quality Definition Language）规则集的初步支持。DQDL是一种用于定义数据质量规则的语言，通过这种支持，Deequ可以：

解析DQDL规则集定义
将DQDL规则转换为Deequ内部的约束表示
目前已经实现了行数规则的转换器

这为未来更全面的DQDL支持奠定了基础，将使数据质量规则的定义更加标准化和可管理。

字符串处理改进

针对包含单引号的字符串值，Deequ改进了其"isContainedIn"约束的处理逻辑。这项改进确保了对特殊字符的正确处理，提高了验证过程的准确性。在实际数据中，经常会出现包含各种特殊字符的字符串，这项改进使得Deequ能够更好地处理真实世界的数据场景。

技术实现优化

RDD替换工作

在底层实现上，2.0.10版本继续进行从RDD（弹性分布式数据集）向更现代API的迁移工作。虽然RDD是Spark最早的核心抽象，但随着Spark的发展，DataFrame/Dataset API提供了更高级的抽象和更好的性能。这项迁移工作将使Deequ能够更好地利用Spark的最新优化。

版本意义

Deequ 2.0.10版本虽然是一个小版本更新，但它带来了几个重要的改进：

唯一性检查功能填补了数据质量验证的一个重要场景
DQDL支持为未来的标准化数据质量规则管理铺平了道路
字符串处理改进增强了工具的鲁棒性
底层API的现代化工作确保了项目的长期可维护性

对于正在使用Deequ进行数据质量管理的团队，升级到2.0.10版本将能够利用这些新功能来构建更全面、更健壮的数据质量保障体系。特别是对于那些需要处理复杂数据场景和需要标准化数据质量规则管理的组织，这个版本提供了重要的新能力。

deequ

Deequ is a library built on top of Apache Spark for defining "unit tests for data", which measure data quality in large datasets.

项目地址：https://gitcode.com/gh_mirrors/de/deequ

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.1 K

611

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。