SpiceAI v1.3.1 版本解析：增强数据仓库支持与查询优化

2025-06-19 07:03:22作者：明树来

SpiceAI 是一个开源的数据和 AI 基础设施平台，旨在简化数据工程和机器学习工作流程。它提供了强大的数据联邦能力，允许用户跨多种数据源进行查询和分析，同时集成了先进的 AI 功能。最新发布的 v1.3.1 版本主要针对 Databricks SQL Warehouse 的支持进行了增强，并优化了查询处理能力。

Databricks SQL Warehouse 功能增强

本次更新在 Databricks SQL Warehouse 支持方面做了三项重要改进：

STRUCT 类型支持：现在 SpiceAI 能够正确处理 Databricks SQL Warehouse 中的 STRUCT 复合数据类型，这为处理嵌套数据结构提供了更好的支持。STRUCT 类型在复杂数据建模中非常常见，特别是在处理 JSON 或半结构化数据时。
同仓库连接下推优化：对于在同一个 SQL Warehouse 内执行的连接查询，SpiceAI 现在能够将连接操作下推到数据源执行，而不是在 Spice 层面处理。这种优化可以显著减少数据传输量，提高查询性能。
逻辑计划投影优化：新增了逻辑计划中的投影处理，确保在不同 SQL 方言间进行联邦查询时能够正确转换和执行。这一改进解决了跨数据源查询时可能出现的语法兼容性问题。

SQL 查询处理改进

v1.3.1 版本对 SQL 查询处理引擎做了几项重要修复和优化：

ILike 操作符修复：修复了 ILike 操作符被错误优化为字符串相等比较的问题。ILike 是大小写不敏感的模糊匹配操作，这一修复确保了模糊查询的正确性。
随机函数别名：增加了 random() 函数的别名 rand()，提高了与不同 SQL 方言的兼容性。这一改动使得从其他数据库系统迁移过来的查询能够不加修改地在 SpiceAI 中运行。
参数化查询增强：修复了参数化查询中参数顺序错乱的问题，特别是当查询参数超过10个时。同时改进了 CASE 表达式中的参数占位符推断逻辑，使得复杂条件表达式的参数化更加可靠。

技术实现细节

在底层实现上，SpiceAI v1.3.1 继续基于 DataFusion 和 Arrow 生态构建，这些优化体现了项目在查询优化器层面的持续投入。特别是对 Databricks SQL Warehouse 的支持增强，展示了 SpiceAI 在混合云数据架构中的价值主张 - 即在不移动数据的情况下实现跨系统的联合分析。

对于数据工程师和数据分析师而言，这些改进意味着：