Narwhals v1.29.0 版本发布：性能优化与功能增强

2025-07-06 16:42:46作者：申梦珏Efrain

Narwhals 是一个专注于数据处理的 Python 库，它提供了高效、灵活的数据操作接口，特别适合处理大规模数据集。最新发布的 v1.29.0 版本带来了一系列性能优化和功能增强，进一步提升了用户体验和数据处理效率。

性能优化亮点

本次版本在性能方面做了多处改进，显著提升了数据处理速度：

避免重复定义 lambda 函数：在 *Namespace.all 方法中优化了 lambda 函数的定义方式，减少了不必要的函数创建开销。
优化 when/then/otherwise 表达式：改进了 otherwise_value 的处理逻辑，避免了全量广播操作，提升了条件表达式的执行效率。
延迟加载优化：对 schema 和 columns 的延迟加载属性使用了缓存机制，减少了重复计算。
列名验证优化：仅在收集数据时验证重复列名，降低了 DuckDB、PySpark 和 Dask 后端的不必要开销。

新增的 nw.exclude 方法提供了更灵活的数据筛选能力，用户可以方便地排除特定列或条件的数据。

引入了类似 Pandas 的 .diff().over(group) 操作，使得在分组数据上计算差分变得更加简单直观。

fill_null 方法现在支持使用表达式作为填充值，大大增强了处理缺失值的灵活性。

添加了 DataFrame.iter_columns 方法，方便用户按列迭代处理数据。

新增了 str.split 方法，完善了字符串处理功能集。

这些改进不仅提升了 Narwhals 的性能和稳定性，也使其 API 更加一致和易用。对于数据科学家和工程师来说，v1.29.0 版本提供了更强大的工具来处理各种复杂的数据处理任务。

登录后查看全文