GlareDB v25.5.11版本发布:增强Parquet文件处理能力
GlareDB是一个开源的分布式数据库系统,专注于高性能的数据处理和分析。它支持多种数据源和格式,特别擅长处理大规模数据集。本次发布的v25.5.11版本主要针对Parquet文件格式的处理能力进行了多项增强和优化。
Parquet元数据功能增强
新版本引入了对glob模式的支持,允许用户在parquet_metadata和parquet_rowgroup_metadata等函数中使用通配符模式匹配多个文件。这一改进极大地简化了批量处理Parquet文件时的操作流程,用户不再需要逐个指定文件名。
时间戳处理优化
在Parquet文件读取方面,v25.5.11版本修复了INT64物理类型作为微秒级时间戳的解析问题。现在系统能够正确识别和处理这种特殊的时间戳格式,确保了时间数据的准确读取和转换。
多路径文件读取支持
新增了对文件路径列表的支持,用户现在可以向read_parquet、read_csv等文件读取函数传递一个路径列表,系统会自动合并这些文件的数据。这一功能特别适合处理分片存储的数据集,大大提升了数据加载的灵活性。
列级元数据查询功能
v25.5.11版本新增了parquet_column_metadata函数,可以查询Parquet文件中各列的详细元数据信息。同时,原有的parquet_rowgroup_metadata函数也进行了改进,增加了行组序号(ordinal)列,使得元数据查询结果更加完整和易于理解。
底层优化与测试增强
在底层实现上,新版本修复了部分Parquet解码器在处理定义级别(definition levels)时的问题,提高了数据读取的准确性和稳定性。开发团队还添加了针对分区表的ClickBench测试用例,确保系统在处理分区数据时的性能和正确性。
这些改进使得GlareDB在处理Parquet格式数据时更加高效和可靠,特别是在大数据量场景下,能够提供更好的性能和更丰富的元数据查询能力。对于数据分析师和数据工程师来说,这些增强功能将显著提升工作效率。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
jiuwenclawJiuwenClaw 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。Python0194- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
AtomGit城市坐标计划AtomGit 城市坐标计划开启!让开源有坐标,让城市有星火。致力于与城市合伙人共同构建并长期运营一个健康、活跃的本地开发者生态。01
awesome-zig一个关于 Zig 优秀库及资源的协作列表。Makefile00