SpiceAI项目中的Databricks U2M OAuth访问令牌拦截支持解析

2025-07-02 08:06:44作者：卓炯娓

在SpiceAI项目中，团队最近实现了一项重要功能增强——支持从API请求中拦截Databricks U2M OAuth访问令牌。这项改进使得当HTTP和Flight API请求头中包含Databricks用户访问令牌和OAuth客户端ID时，这些凭证能够被自动应用于相关的Databricks组件，包括数据集、目录、嵌入和模型等。

功能背景与价值

在现代数据应用架构中，安全认证是核心需求之一。Databricks作为主流的数据平台，提供了多种认证方式，其中用户到机器(U2M)的OAuth流程能够为每个用户提供独立的认证上下文。SpiceAI此次增强的功能正是为了支持这种细粒度的认证模式。

传统做法中，应用通常使用单一的服务账号凭证访问Databricks资源，这既不符合最小权限原则，也难以追踪具体用户的操作。通过支持U2M OAuth，SpiceAI现在可以实现：

真正的多租户支持，每个用户使用自己的凭证访问数据
更精细的访问控制，遵循Databricks原有的权限体系
完整的操作审计能力，所有操作都能追溯到具体用户

技术实现方案

认证流程设计

SpiceAI为Databricks组件设计了三种认证模式：

个人访问令牌(PAT)模式：使用固定的databricks_token参数
机器到机器(M2M)模式：同时配置databricks_client_id和databricks_client_secret
用户到机器(U2M)模式：仅配置databricks_client_id，依赖请求头传递用户凭证

对于U2M模式，客户端需要在每个API请求中包含特定的认证头： Spice-Databricks-Auth: <client_id>:<access_token>

核心架构改进

项目团队对SpiceAI运行时进行了多项架构调整：

请求上下文扩展：为DataFusion实现了请求上下文扩展机制，能够从请求头中提取U2M凭证并动态注册对应的Databricks数据集和目录。
Spark连接管理：针对Databricks Spark连接，现在会为每个请求创建新的连接实例，确保使用正确的用户凭证。
令牌提供者重构：改造了DatabricksU2MTokenProvider，使其直接从请求上下文中获取令牌，而非依赖缓存机制。
组件懒加载：所有使用U2M认证的组件改为懒加载模式，仅在首次收到对应凭证的请求时才进行初始化。

安全考量

在实现过程中，团队特别注重安全性设计：

使用Rust的secrety crate安全处理敏感凭证
严格限定令牌的作用范围，仅与当前请求关联
避免在全局状态中存储任何用户令牌
对无效配置提供明确的错误提示

配置示例与限制

以下是一个典型的U2M模式配置示例：

datasets:
  - from: databricks:spiceai_sandbox.default.messages
    name: messages
    params:
        databricks_endpoint: ${secrets:DATABRICKS_ENDPOINT}
        databricks_cluster_id: ${secrets:DATABRICKS_CLUSTER_ID}
        databricks_client_id: ${secrets:DATABRICKS_CLIENT_ID}