Daft项目v0.4.10版本发布：窗口函数与时间处理能力升级

2025-06-17 18:57:46作者：管翌锬

The Python DataFrame for Complex Data

项目地址：https://gitcode.com/GitHub_Trending/da/Daft

Daft是一个开源的分布式计算框架，专注于为数据工程师和分析师提供高效、灵活的数据处理能力。该项目采用Rust和Python构建，结合了现代数据处理的性能优势与开发者友好的API设计。

核心功能增强

窗口函数支持

本次版本在窗口函数支持方面取得了重要进展，为数据分析场景提供了更强大的处理能力：

窗口函数定义与API框架：新增了窗口函数的基础定义和API框架，为后续功能扩展奠定了基础。窗口函数允许在数据集的特定窗口范围内执行计算，是时间序列分析和滑动窗口聚合的关键技术。
分区执行优化：实现了窗口分区执行功能，能够高效处理分组窗口计算，这对于按时间或其他维度分组分析的业务场景尤为重要。
提取窗口函数优化规则：新增了ExtractWindowFunction优化器规则，这是查询优化器的重要组成部分，能够自动优化窗口函数查询的执行计划。

时间处理功能扩展

时间处理是数据分析的常见需求，新版本在这方面做了多项增强：

strftime函数：新增支持将时间格式化为字符串的功能，满足各种时间展示需求。
unix_timestamp函数：提供了获取Unix时间戳的能力，便于时间数据的标准化处理和跨系统兼容。
day_of_year属性：为时间类型增加了获取一年中第几天的便捷方法，简化了季节性分析等场景的开发。

数据类型系统改进

数据类型系统获得了更丰富的内省能力：

类型判断方法：新增了is_t系列方法和inner属性方法，使开发者能够更方便地检查和操作复杂数据类型。
时间单位表示优化：改进了TimeUnit的repr格式，提升了调试和日志输出的可读性。

性能优化

Shuffle缓存优化：对shuffle操作的缓存机制进行了优化，减少了数据混洗过程中的重复计算，提升了大规模数据处理的效率。
反半连接下推规则：优化器新增了反连接和半连接的下推规则，这类连接操作在数据过滤和子查询处理中很常见，优化后能显著提升查询性能。

质量与稳定性

空值排序处理：修复了排序操作中nulls_first选项的问题，确保了数据排序行为的正确性。
空系列聚合修复：解决了在空系列上执行列表聚合操作时的问题，增强了框架的健壮性。
类型检查回归：重新启用了mypy静态类型检查，提高了代码质量保障。

开发者体验

本地运行线程控制：现在可以为本地运行器设置线程数，方便开发者在不同硬件环境下进行性能调优。
Spark IO配置：新增了对Spark的IO配置支持，改善了与Spark生态的集成体验。
Rust Flight服务器：实现了基于Rust的Flight服务器，为高性能数据传输提供了新的选择。

总结

Daft 0.4.10版本在窗口函数支持、时间处理能力和性能优化等方面都有显著提升，使框架更适合复杂的时间序列分析和窗口计算场景。数据类型系统的增强和多项稳定性修复也进一步提高了开发体验和生产可用性。这些改进使Daft在分布式数据处理领域更具竞争力，为数据工程师提供了更强大的工具集。

The Python DataFrame for Complex Data

项目地址：https://gitcode.com/GitHub_Trending/da/Daft

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统