Narwhals v1.27.0版本发布:性能优化与功能增强
Narwhals是一个专注于数据处理的Python库,它提供了高效、灵活的数据操作接口,能够与多种数据处理后端(如Pandas、Spark等)无缝集成。该项目旨在为数据科学家和工程师提供统一的API,简化跨平台数据处理工作流程。
性能优化亮点
本次v1.27.0版本在性能方面做出了多项重要改进:
-
避免重复表达式计算:在
mean_horizontal函数中优化了实现逻辑,消除了不必要的重复表达式计算,显著提升了计算效率。 -
异常处理优化:重构了
_hasattr_static方法的实现,减少了try/except块的使用,使得属性检查更加高效。 -
分组操作加速:针对Pandas风格的单表达式分组操作实现了快速路径处理,同时优化了索引重置逻辑,避免在不需要时执行不必要的索引操作。
新增功能特性
-
Spark风格结构体支持:新增了对Spark风格结构体的转换支持,用户现在可以方便地在Narwhals和Spark结构体之间进行类型转换。
-
Series索引增强:实现了
series[other_series]形式的索引操作,提供了更灵活的数据访问方式。
问题修复与改进
-
统计计算修正:调整了DuckDB中人口偏度的计算方式,通过引入修正因子确保获得样本偏度的正确结果。
-
SQLFrame兼容性:修复了SQLFrame在合规性检查中的误报问题。
-
类型系统增强:多项类型系统改进,包括将
TypeGuard升级为TypeIs,优化了时间单位和时区的类型处理。
代码质量提升
-
类型注解强化:通过使用
Mapping和Sequence等抽象基类,使from_numpy和from_dict等方法的类型提示更加灵活和准确。 -
测试覆盖扩展:增加了对
sum_horizontal等函数的测试用例,确保转换操作的正确性。 -
代码重构:对表达式元数据、过滤逻辑和命名表达式等核心组件进行了重构,提高了代码的可维护性。
总结
Narwhals v1.27.0版本在保持API稳定性的同时,通过性能优化、功能增强和问题修复,进一步提升了数据处理效率和用户体验。特别是对Spark结构体的支持和对Series索引的增强,使得跨平台数据处理更加便捷。这些改进使得Narwhals在数据科学工作流中的价值更加突出,为处理大规模数据集提供了更高效的工具。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
LongCat-AudioDiT-1BLongCat-AudioDiT 是一款基于扩散模型的文本转语音(TTS)模型,代表了当前该领域的最高水平(SOTA),它直接在波形潜空间中进行操作。00- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
HY-Embodied-0.5这是一套专为现实世界具身智能打造的基础模型。该系列模型采用创新的混合Transformer(Mixture-of-Transformers, MoT) 架构,通过潜在令牌实现模态特异性计算,显著提升了细粒度感知能力。Jinja00
FreeSql功能强大的对象关系映射(O/RM)组件,支持 .NET Core 2.1+、.NET Framework 4.0+、Xamarin 以及 AOT。C#00