Apache Kyuubi 中 MaxScanStrategy 对 DSv2 的支持增强

2025-07-05 05:57:08作者：宣利权Counsellor

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

项目地址：https://gitcode.com/gh_mirrors/kyuub/kyuubi

在 Apache Kyuubi 项目中，MaxScanStrategy 是一个用于限制最大扫描文件大小的策略组件，目前主要应用于 Hive 等数据源。随着数据源架构的演进，DSv2（DataSource V2）已成为现代数据处理框架中的重要组成部分。本文将深入探讨如何扩展 MaxScanStrategy 以支持 DSv2 数据源的技术实现。

背景与现状

MaxScanStrategy 的核心功能是控制查询执行时扫描的文件大小，这对于优化查询性能和资源使用至关重要。当前实现主要针对传统数据源如 Hive，而 DSv2 作为新一代数据源 API，提供了更灵活和强大的数据访问能力。

DSv2 架构引入了批处理和流式处理统一的 API，支持更细粒度的谓词下推和列裁剪等优化。然而，现有的 MaxScanStrategy 尚未适配这一新架构，导致在 DSv2 数据源上无法应用相同的文件大小限制策略。

技术挑战

实现 MaxScanStrategy 对 DSv2 的支持面临几个关键技术挑战：

API 差异：DSv2 的扫描接口与传统数据源有显著不同，需要理解其 BatchScan 和 StreamingScan 的工作机制。
执行计划转换：需要确保策略能正确插入到 DSv2 查询计划中，不影响原有的优化规则。
性能考量：新增的策略检查不应引入显著的性能开销。

实现方案

扩展 MaxScanStrategy 支持 DSv2 的核心思路是：

识别 DSv2 扫描节点：在查询计划中定位 DSv2 的 BatchScan 或 StreamingScan 节点。
文件大小统计：通过 DSv2 提供的元数据接口获取待扫描文件的大小信息。
策略应用：当扫描文件超过阈值时，采取相应措施（如拒绝查询或拆分任务）。
兼容性保证：确保新实现不影响现有传统数据源的功能。

实现细节

具体实现时需要注意以下关键点：

利用 DSv2 的 SupportsReportStatistics 接口获取准确的统计信息
在 Spark 的优化阶段适当时机插入策略检查
正确处理分区表和分桶表的特殊情况
提供清晰的错误信息，帮助用户理解扫描限制

性能优化

为了最小化性能影响，可以采取以下优化措施：

缓存文件统计信息，避免重复计算
并行化大文件检查过程
实现增量式检查，尽早发现违规情况

总结

通过扩展 MaxScanStrategy 支持 DSv2，Kyuubi 能够为更多现代数据源提供一致的扫描控制能力。这一改进不仅增强了框架的适用性，也为用户提供了更精细的资源控制手段。未来还可以考虑进一步优化策略的灵活性，支持基于数据特征的动态调整。

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

项目地址：https://gitcode.com/gh_mirrors/kyuub/kyuubi

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

昇腾LLM分布式训练框架

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter