Daft v0.4.9 版本发布：数据处理能力全面升级

2025-06-17 08:14:30作者：翟萌耘Ralph

High-performance data engine for AI and multimodal workloads. Process images, audio, video, and structured data at any scale

项目地址：https://gitcode.com/GitHub_Trending/da/Daft

Daft 是一个高性能的分布式数据处理框架，专为现代数据工作负载设计。它提供了类似 Pandas 的 API 接口，但能够在分布式环境中高效运行，特别适合处理大规模数据集。最新发布的 v0.4.9 版本带来了多项重要功能增强和性能优化，进一步提升了框架的数据处理能力。

时间处理功能增强

新版本在时间处理方面进行了显著增强，新增了 dt.millisecond、dt.microsecond 和 dt.nanosecond 方法，使得开发者能够更精确地提取和操作时间数据中的毫秒、微秒和纳秒部分。这一改进对于需要高精度时间处理的应用场景尤为重要，如金融交易数据分析、科学实验数据处理等。

表格管理功能完善

v0.4.9 版本引入了多项表格管理相关的功能改进：

新增了 create_table_if_not_exists 和 create_namespace_if_not_exists 方法，使得表格和命名空间的创建操作更加安全可靠，避免了重复创建导致的冲突问题。
添加了 has_table 和 has_namespace 方法，方便开发者检查表格或命名空间是否存在，这在编写健壮的数据处理脚本时非常有用。
支持创建托管表(managed tables)，为数据管理提供了更高级别的抽象和控制能力。

数据连接与格式处理

在数据连接方面，新版本增加了 CSV 和 Parquet 文件的覆盖写入模式，使得数据更新操作更加灵活。同时，改进了 show 方法的格式化参数支持，让数据展示更加美观和易读。

对于文本数据处理，新增了 try_encode 和 try_decode 方法，特别优化了对 UTF-8 编码的处理，增强了框架处理各种文本数据的能力和稳定性。

SQL 功能扩展

SQL 支持方面也有显著进步：

实现了基本的 ROLLUP 支持，为多维数据分析提供了更强大的工具。
优化了非等值连接(non-equi join)在逻辑计划中的处理，扩展了连接操作的灵活性。
改进了连接顺序优化，修复了列别名在连接之间的传递问题。

性能优化

v0.4.9 版本包含多项性能优化措施：

实现了连接谓词下推(join predicate push-down)，减少了不必要的数据传输和处理。
优化了包含空值消除过滤谓词的连接类型简化，提高了查询执行效率。
将批处理大小设置为 morsel 大小，优化了项目执行性能。

错误修复与稳定性提升

新版本修复了多个影响稳定性的问题，包括：

改进了列错误消息，帮助开发者更快定位问题。
修复了单调递增 ID 函数与名为"id"的列共存时的问题。
解决了 WARC 文件合并和远程 Parquet 读取器中的问题。
改进了表格解析过程中的错误处理，确保非"NotFound"错误能够正确上报。

文档与用户体验改进

文档方面进行了全面更新和完善：

增加了跨列表达式、行编号等新功能的文档说明。
修正了 Delta Lake 类型文档中的错误。
完善了 S3 配置示例和 SQL 类型参考文档。
修复了文档中的链接问题，提高了文档的可访问性。

新增功能亮点

引入了 llm_generate 表达式，为集成大型语言模型提供了便利。
增加了跨列表达式支持，扩展了数据转换能力。
新增了 Daft CLI 工具，包含仪表板命令，提升了用户交互体验。

Daft v0.4.9 版本的这些改进和新增功能，使得这个分布式数据处理框架在功能性、性能和易用性方面都得到了全面提升，为处理大规模数据工作负载提供了更加强大和可靠的工具。

High-performance data engine for AI and multimodal workloads. Process images, audio, video, and structured data at any scale

项目地址：https://gitcode.com/GitHub_Trending/da/Daft

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

deepin linux kernel

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook