DuckDB v1.2版本读取gzip压缩JSON文件的问题分析

2025-05-06 23:26:56作者：胡唯隽

**DuckDB：数据分析新引擎，轻量级而强力** 体验未来数据处理的革新——DuckDB，一款高性能分析数据库，专为速度、稳定与易用性打造。它超越传统SQL，支持复杂查询、窗口函数、多层类型及众多便捷扩展，让数据探索变得无比灵活。集成Python、R等主流语言，无缝对接pandas、dplyr，强大如斯，却轻巧入驻CLI和WebAssembly。导入CSV、Parquet文件，简单至一句SQL。开发者，欢迎挑战，C++11起，配合CMake与Python3，编译即启。优化或调试，基准测试确保每一步稳健，性能评测一触即发。加入我们，共创数据处理新篇章！寻求支持？多样选项满足你的需求。开始你的高效数据之旅吧！

在DuckDB数据库系统升级到v1.2版本后，用户报告了一个关于读取gzip压缩JSON文件的问题。这个问题表现为在读取压缩JSON时需要显著增加最大对象大小限制，并且最终会因无效字符而失败，而同样的JSON文件在不压缩的情况下则可以正常读取。

问题现象

当用户尝试执行以下SQL查询时：

SELECT * FROM 'fundos_list.json.gz';

在DuckDB v1.2版本中会遇到以下问题：

而同样的JSON文件在不压缩的情况下（fundos_list.json）则可以在v1.1和v1.2版本中正常读取。

DuckDB是一个高性能的分析型数据库管理系统，支持直接读取多种格式的数据文件，包括JSON及其压缩版本。JSON文件压缩通常使用gzip算法，可以显著减少存储空间和网络传输时间。

在数据处理流程中，直接读取压缩文件是一个很有用的功能，因为它避免了先解压再处理的额外步骤，提高了整体效率。

从技术角度看，这个问题可能涉及以下几个方面：

开发团队在接到报告后迅速响应，通过以下提交修复了这个问题：

这些修复确保了在保持内存效率的同时，正确处理压缩JSON文件的读取。

对于使用DuckDB处理压缩JSON文件的用户，建议：

这个案例展示了开源社区如何快速响应和解决用户报告的问题。DuckDB作为一个活跃开发的分析型数据库系统，不断优化其文件处理能力，而用户反馈对于改进产品质量至关重要。通过这个问题的解决，DuckDB在压缩文件处理方面变得更加健壮和可靠。

登录后查看全文