Bruin项目v0.11.226版本发布：数据管道与SCD2实现的重大升级

2025-07-08 23:07:50作者：吴年前Myrtle

Build data pipelines with SQL and Python, ingest data from different sources, add quality checks, and build end-to-end flows.

项目地址：https://gitcode.com/gh_mirrors/br/bruin

Bruin是一个专注于数据工程领域的开源项目，它提供了强大的数据管道编排、数据质量检查和数据变更捕获等功能。本次发布的v0.11.226版本带来了多项重要改进，特别是在SCD2(缓慢变化维度类型2)实现、SFTP连接支持以及数据质量检查文档完善等方面。

SCD2实现全面升级

SCD2是数据仓库中处理维度表历史变化的标准方法，本次版本对SCD2功能进行了全面增强：

多主键集群支持：现在可以基于多个主键列进行集群(cluster by)操作，这对于处理复合主键的场景特别有用，能够优化数据分布和查询性能。
全量刷新功能：新增了full-refresh支持，允许用户完全重建SCD2表，这在数据初始化或数据修复场景中非常实用。
时间列分离处理：改进了时间列的处理逻辑，现在可以更灵活地定义和管理有效时间范围列，使SCD2实现更加符合业务需求。
查询优化：通过trim查询等技术减少了不必要的计算，提升了SCD2操作的效率。
跨平台支持：除了原有的数据库支持外，新增了Snowflake平台的SCD2实现，扩展了适用场景。

SFTP连接支持

新版本增加了对SFTP协议的支持，包括：

加密私钥处理：支持使用RSA加密的私钥进行身份验证，提高了连接安全性。
集成测试：为SFTP连接添加了全面的集成测试，确保功能的稳定性和可靠性。

数据质量检查改进

在数据质量检查方面，本次更新主要关注文档完善和功能增强：

文档示例丰富：为质量检查功能添加了更多实用示例，帮助用户更好地理解和使用各种检查规则。
参数验证增强：改进了参数渲染和验证机制，确保在管道运行前就能发现潜在的配置问题。

性能优化与资源管理

SQL解析器改进：通过序列化子测试和优化文件清理逻辑，显著提升了SQL解析的性能和资源利用率。
资源泄漏修复：修复了多个可能导致资源泄漏的问题，特别是在文件处理和数据库连接方面。

参数系统增强

依赖字段灵活性：现在depends字段既支持字符串也支持数组，提供了更灵活的依赖定义方式。
变量插值重构：对变量插值系统进行了重构，提高了参数处理的可靠性和性能。

数据比较工具改进

跨平台支持：数据比较工具现在支持PostgreSQL，扩展了适用场景。
输出简化：优化了数据差异的输出格式，使其更加清晰易读。
返回码标准化：当发现数据差异时，现在会返回标准的Unix错误码，便于脚本化处理。

架构与内部改进

管道执行顺序优化：现在会在资产变异器之前先运行管道变异器，确保正确的执行顺序。
参数预处理：在管道运行前会预先解析和渲染参数，提高了执行可靠性。
文档注释清理：对代码中的文档注释进行了统一清理和规范化，提高了代码可读性。

Bruin v0.11.226版本通过这些改进，进一步巩固了其作为数据工程领域强大工具的地位。特别是SCD2实现的完善，使得处理维度表历史变化变得更加简单和高效，而SFTP支持的加入则扩展了数据源接入的能力。这些改进将帮助数据团队更高效地构建和维护数据管道，确保数据质量和历史跟踪的完整性。

Build data pipelines with SQL and Python, ingest data from different sources, add quality checks, and build end-to-end flows.

项目地址：https://gitcode.com/gh_mirrors/br/bruin

登录后查看全文

项目优选

收起

deepin linux kernel

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用