dbt-core 项目中的快照功能演进：从Jinja块到YAML配置

2025-05-22 15:57:25作者：齐添朝

传统快照实现方式的局限性

在数据工程领域，快照(Snapshot)是一种重要的数据管理技术，它能够捕获并保留数据在特定时间点的状态。dbt-core项目长期以来都采用基于Jinja模板的方式定义快照，这种方式虽然灵活，但也存在一些明显的不足：

语法相对复杂，需要开发者熟悉Jinja模板语言
配置与逻辑混合，可读性较差
文件组织方式受限，必须放在专门的snapshots目录下
学习曲线较陡，对新手不够友好

YAML配置化快照的实现方案

dbt-core项目的最新演进方向是将快照定义从Jinja块迁移到YAML配置。这种变革带来了诸多优势：

基础配置语法

新的YAML配置方式采用简洁明了的声明式语法：

snapshots:
  - name: orders_snapshot
    config:
      tags: finance
    from: source('jaffle_shop', 'orders')
    unique_key: id
    strategy: timestamp
    updated_at: updated_at

核心特性解析

from字段：这是新方案的核心创新点，支持直接引用source或ref，底层会自动转换为select * from查询逻辑。这种设计既简化了配置，又保持了灵活性。
策略配置：支持timestamp和check两种标准策略，与原有功能完全兼容。
向后兼容：项目保持了Jinja方式的完整支持，确保现有项目可以平稳过渡。

高级功能探讨

配置继承与覆盖

新方案支持通过dbt_project.yml实现配置的继承和覆盖：

# dbt_project.yml
snapshots:
  my_project:
    jaffle_shop:
      +unique_key: id
      +strategy: timestamp
      +updated_at: updated_at

这种设计特别适合管理多个相似快照的场景，可以显著减少重复配置。

复合键支持

虽然基础示例展示了简单主键，但实际系统也支持复合键和表达式：

unique_key: "{{ dbt_utils.generate_surrogate_key('field_a', 'field_b') }}"

混合模式支持

对于特殊需求，项目仍然保留了SQL文件定义的方式，类似于测试用例中通用测试与自定义测试的关系。

架构设计思考

文件组织灵活性

新方案打破了快照必须放在特定目录的限制，允许像源定义一样分布在模型目录中。这种设计带来了更好的项目组织结构。

与模型版本控制的协同

虽然当前issue没有完全实现，但社区已经提出将快照与模型版本控制集成的思路。这种设计将快照视为模型的一个属性，而非独立实体，可能会是未来的发展方向。

实施建议

对于考虑采用新快照定义方式的团队，建议：

新项目优先采用YAML方式，享受简洁性优势
现有项目逐步迁移，利用兼容性保障平稳过渡
复杂场景仍可混合使用SQL定义方式
关注快照与模型版本的未来集成可能性

这种演进体现了dbt-core项目在保持核心功能的同时，不断优化开发者体验的设计理念。通过简化配置方式，降低入门门槛，同时保留足够的灵活性，满足了不同场景下的需求。

dbt-core

dbt enables data analysts and engineers to transform their data using the same practices that software engineers use to build applications.

项目地址：https://gitcode.com/GitHub_Trending/db/dbt-core

登录后查看全文