GlareDB v25.5.11版本发布:增强Parquet文件处理能力
GlareDB是一个开源的分布式数据库系统,专注于高性能的数据处理和分析。它支持多种数据源和格式,特别擅长处理大规模数据集。本次发布的v25.5.11版本主要针对Parquet文件格式的处理能力进行了多项增强和优化。
Parquet元数据功能增强
新版本引入了对glob模式的支持,允许用户在parquet_metadata和parquet_rowgroup_metadata等函数中使用通配符模式匹配多个文件。这一改进极大地简化了批量处理Parquet文件时的操作流程,用户不再需要逐个指定文件名。
时间戳处理优化
在Parquet文件读取方面,v25.5.11版本修复了INT64物理类型作为微秒级时间戳的解析问题。现在系统能够正确识别和处理这种特殊的时间戳格式,确保了时间数据的准确读取和转换。
多路径文件读取支持
新增了对文件路径列表的支持,用户现在可以向read_parquet、read_csv等文件读取函数传递一个路径列表,系统会自动合并这些文件的数据。这一功能特别适合处理分片存储的数据集,大大提升了数据加载的灵活性。
列级元数据查询功能
v25.5.11版本新增了parquet_column_metadata函数,可以查询Parquet文件中各列的详细元数据信息。同时,原有的parquet_rowgroup_metadata函数也进行了改进,增加了行组序号(ordinal)列,使得元数据查询结果更加完整和易于理解。
底层优化与测试增强
在底层实现上,新版本修复了部分Parquet解码器在处理定义级别(definition levels)时的问题,提高了数据读取的准确性和稳定性。开发团队还添加了针对分区表的ClickBench测试用例,确保系统在处理分区数据时的性能和正确性。
这些改进使得GlareDB在处理Parquet格式数据时更加高效和可靠,特别是在大数据量场景下,能够提供更好的性能和更丰富的元数据查询能力。对于数据分析师和数据工程师来说,这些增强功能将显著提升工作效率。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0199
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0130
MiMo-V2.5-Pro-FP4-DFlashMiMo-V2.5-Pro-FP4-DFlash 是驱动 MiMo-V2.5-Pro-UltraSpeed 的底层模型: FP4 量化骨干网络:对 MoE 专家采用 MXFP4 量化,同时保持模型其他部分的更高精度,在几乎无损质量的前提下,显著减小模型体积并降低内存带宽压力。 BF16 DFlash 草稿生成器:用于块扩散推测解码,每次前向传播可生成一整个块的 tokens,并让骨干网络一步完成验证。 两者协同作用,既降低了每参数的位宽,又减少了骨干网络前向传播的次数,而这两者正是万亿参数模型解码过程中的两大主要成本来源。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
AstrBot✨ 易上手的多平台 LLM 聊天机器人及开发框架 ✨ 平台支持 QQ、QQ频道、Telegram、微信、企微、飞书 | OpenAI、DeepSeek、Gemini、硅基流动、月之暗面、Ollama、OneAPI、Dify 等。附带 WebUI。Python08
handy-ollama动手学Ollama,CPU玩转大模型部署,在线阅读地址:https://datawhalechina.github.io/handy-ollama/Jupyter Notebook07