Daft v0.4.7 版本发布：增强数据编解码与目录管理能力

2025-06-17 10:59:42作者：郁楠烈Hubert

Daft 是一个高性能的分布式数据框架，专为大规模数据处理和分析而设计。它结合了现代数据处理的多种特性，包括分布式计算、高效的数据编解码以及灵活的数据目录管理。最新发布的 v0.4.7 版本带来了一系列功能增强和性能优化，特别是在数据编解码和目录管理方面有了显著提升。

核心功能增强

数据编解码能力扩展

新版本增加了对 deflate、gzip 和 zlib 格式的编码与解码支持。这些压缩格式在数据处理中非常常见，特别是在网络传输和存储优化场景中。通过内置这些编解码功能，Daft 现在能够更高效地处理压缩数据，减少存储空间占用和网络传输时间。

目录管理功能强化

目录(Catalog)管理是 Daft 的一个重要特性，v0.4.7 版本在这方面做了多项改进：

新增了创建表和创建命名空间的 DDL 操作，使得用户能够更灵活地组织和管理数据
增加了表 API 的追加(append)和覆盖(overwrite)操作，为数据更新提供了更多选择
扩展了 Catalog.from_pydict 方法的表源支持，使其能够处理更多类型的数据源
改进了表解析功能，现在支持在目录根级别解析表

这些改进使得 Daft 的数据组织和管理能力更加完善，为构建复杂的数据处理流程提供了更好的支持。

SQL 会话功能增强

新增了 'use' SQL 会话语句支持，这使得在多数据库环境下切换上下文变得更加方便。这一功能对于需要同时处理多个数据源的应用场景特别有用。

数学函数库扩充

v0.4.7 版本丰富了数学函数库，新增了以下几类函数：

双曲函数：sinh、cosh 和 tanh
数值计算函数：log1p 和 expm1，这些函数在数值稳定性方面有优势
三角函数扩展：增加了 csc 和 sec 函数

这些数学函数的加入使得 Daft 在科学计算和工程应用领域的能力进一步增强。

性能优化与问题修复

内存优化

针对 WARC 格式数据读取进行了内存消耗优化，并改进了内存估算机制。这一优化显著降低了处理大规模 WARC 数据时的内存占用，提高了处理效率。

重要问题修复

修复了 coalesce 函数在处理空值和超类型时的潜在崩溃问题
解决了 map.get 在空数据集上的异常问题
修正了写入 Lance 格式时在需要存储选项情况下的追加模式问题
改进了 GCS 客户端配置获取的可靠性，增加了重试机制

文档与开发者体验改进

新版本对文档进行了多项补充和完善：

增加了目录和会话相关的详细文档
新增了 Spark Connect 的文档页面
完善了函数模块的文档说明
提供了更详细的目录使用指南

在开发者体验方面，改进了构建流程，将仪表板(dashboard)资产纳入标准构建过程，简化了开发环境配置。

总结

Daft v0.4.7 版本在数据编解码、目录管理、数学计算等多个方面都有显著提升，同时解决了多个稳定性问题并优化了内存使用效率。这些改进使得 Daft 在处理大规模数据时更加高效和可靠，为数据工程师和分析师提供了更强大的工具。

Daft

The Python DataFrame for Complex Data

项目地址：https://gitcode.com/GitHub_Trending/da/Daft

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理