Kyuubi项目中的Ranger访问请求性能优化实践

2025-07-05 01:27:43作者：咎岭娴Homer

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

项目地址：https://gitcode.com/gh_mirrors/kyuub/kyuubi

Apache Kyuubi作为一个企业级SQL网关服务，在处理大规模数据查询时，性能优化尤为重要。在最新开发中，社区发现并解决了一个影响Ranger权限检查性能的关键问题。

问题背景

在Kyuubi的RuleAuthorization模块中，原始实现使用ArrayBuffer来收集和管理Ranger的访问请求(access requests)。这种设计在处理少量请求时表现尚可，但当面对大规模查询(如涉及数万个文件的场景)时，性能瓶颈就变得非常明显。

问题的核心在于，每次新增一个PrivilegeObject时，都需要与ArrayBuffer中已有的所有访问请求进行逐一比较，这种线性查找的时间复杂度为O(n)，随着请求数量的增加，性能呈线性下降。

优化方案

针对这一问题，开发团队提出了将数据结构从ArrayBuffer改为HashMap的优化方案。HashMap基于哈希表实现，其查找操作的平均时间复杂度为O(1)，可以显著提升大量请求场景下的性能表现。

具体实现上，优化后的版本利用HashMap的键值对特性，将访问请求的特征作为键，避免了不必要的重复比较。这种改变虽然简单，但效果显著。

性能对比

为了验证优化效果，团队设计了包含50,000个文件的测试场景：

test("KYUUBI #6754: improve the performance of ranger access requests") {
    val outputPath = "/private/var/folders/tr/..."
    println("output path: "+ outputPath)

    val plugin = mock[SparkRangerAdminPlugin.type]
    when(plugin.verify(Seq(any[RangerAccessRequest]), any[SparkRangerAuditHandler]))
      .thenAnswer(_ => ())

    val df = spark.read.parquet(outputPath + "/*/*.parquet")
    val plan = df.queryExecution.optimizedPlan
    val start = System.currentTimeMillis()
    RuleAuthorization(spark).checkPrivileges(spark, plan)
    val end = System.currentTimeMillis()
    println(s"Time elapsed : ${end - start} ms")
}

测试结果显示：

优化前：性能表现较差，处理时间较长
优化后：性能提升显著，处理时间大幅缩短

技术意义

这一优化不仅解决了特定场景下的性能问题，更体现了几个重要的工程实践原则：

数据结构选择的重要性：在软件开发中，选择合适的数据结构往往比算法优化更能带来显著的性能提升。
大规模数据处理考量：企业级应用需要特别关注大规模数据场景下的性能表现，不能仅在小数据量下测试通过就满足。
权限检查的优化思路：对于频繁执行的权限检查操作，应该尽量减少不必要的计算和比较。

总结

这次优化展示了Kyuubi社区对性能问题的敏锐洞察力和快速响应能力。通过将ArrayBuffer替换为HashMap这一看似简单的改动，却解决了实际生产环境中可能遇到的重大性能瓶颈。这也提醒开发者在设计系统时，特别是在处理可能大规模增长的数据时，需要提前考虑数据结构的扩展性和性能特征。

对于使用Kyuubi的企业用户来说，这一优化将直接提升在大规模数据查询场景下的响应速度，特别是在启用Ranger权限检查的情况下，用户体验将得到明显改善。

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

项目地址：https://gitcode.com/gh_mirrors/kyuub/kyuubi

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

deepin linux kernel

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

flutter_flutter

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统