qsv 2.2.0版本发布：CSV数据处理工具的性能优化与新特性

2025-06-17 17:41:47作者：齐冠琰

Blazing-fast Data-Wrangling toolkit

项目地址：https://gitcode.com/gh_mirrors/qs/qsv

qsv是一个高性能的CSV数据处理命令行工具，基于Rust语言开发。它提供了丰富的子命令来处理和分析CSV数据，包括统计、验证、转换、查询等操作。qsv特别注重性能优化，能够高效处理大型CSV文件，是数据工程师和分析师的得力助手。

核心性能优化

在2.2.0版本中，qsv对核心功能进行了多项性能优化：

统计命令(stats)优化：现在只对字符串类型计算长度统计，不再为数字类型计算长度，这一改变显著提升了处理速度。同时修复了统计缓存被不必要删除的问题，使得缓存机制更加可靠，特别是对于支持"智能缓存"的命令，现在能够实现近乎即时的缓存响应。
差异比较命令(diff)改进：修复了多个bug的同时保持了其极高的处理速度，使得CSV文件的差异比较更加准确和高效。
外部去重命令(extdedup)重构：现在真正实现了基于内存映射文件的磁盘哈希表支持，解决了之前仅在内存中处理去重的问题，能够更有效地处理大规模数据集。

新功能特性

动态枚举验证增强：validate命令新增了dynamicEnum自定义JSON Schema关键字列指定器支持。现在可以指定要验证的列（通过名称或基于0的列索引），而不再仅限于使用第一列。这一功能支持本地和远程查找文件，包括http/s、ckan和dathere URL方案。
JSON查询引擎升级：fetch、fetchpost和json命令现在使用最新的jaq引擎，通过预编译和缓存jaq过滤器，显著提升了JSON数据处理性能。
Polars引擎升级：将Polars引擎升级至py-polars 1.20.0和1.21.0版本，为sqlp、joinp、pivotp和count命令带来了性能提升。

其他改进

diff命令新增分隔符选项：增加了--delimiter"便利"选项，提高了使用灵活性。
slice命令增强：新增了对标准输入和snappy压缩文件的支持，扩展了数据处理场景。
依赖项优化：移除了foreach命令中未维护的local-encoding依赖，提升了代码稳定性。
Windows CI缓存：启用了Windows CI缓存，显著加快了持续集成测试速度。

问题修复

count命令修复：解决了有时Polars计数返回零的问题，现在当Polars计数返回零时会回退到常规CSV读取器计数。
diff命令修复：修正了名称到索引转换的问题。
统计缓存修复：解决了统计缓存被意外删除的问题。

qsv 2.2.0版本通过这些优化和改进，进一步巩固了其作为高性能CSV处理工具的地位，特别是在大数据量处理场景下表现更加出色。虽然目前该版本尚未在crates.io上发布（等待Polars 0.46.0的发布），但用户可以通过其他安装和更新选项获取这一版本。

Blazing-fast Data-Wrangling toolkit

项目地址：https://gitcode.com/gh_mirrors/qs/qsv

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库