Great Expectations 中 Fluent 数据源的内存上下文更新问题解析

2025-05-22 09:41:21作者：柏廷章Berta

great_expectations

Always know what to expect from your data.

项目地址：https://gitcode.com/GitHub_Trending/gr/great_expectations

问题背景

在使用 Great Expectations 的 Fluent API 进行数据质量验证时，开发人员发现了一个关于数据源管理的异常行为。当通过代码动态创建 Pandas 数据源时，这些数据源虽然会被正确写入到配置文件(great_expectations.yml)中，但不会实时反映在内存中的 DataContext 对象里。

问题现象

具体表现为：

使用 context.data_sources.add_pandas() 方法创建新的数据源
数据源能够成功创建并可用于后续操作（如添加数据资产、定义批次等）
检查内存中的 DataContext 对象时，发现 fluent_datasources 部分保持为空
只有在重新获取上下文(get_context)后，新增的数据源才会出现在内存上下文中

技术影响

这种不一致行为会对以下场景产生负面影响：

动态配置工作流：当需要基于内存中的上下文状态进行后续决策时，由于数据源信息不完整，可能导致逻辑错误
上下文序列化：将内存中的上下文对象持久化为文件时，会丢失已创建但未同步的数据源信息
实时调试：开发者在交互式环境中无法通过检查上下文对象来验证当前状态

问题根源

经过分析，这个问题源于 Great Expectations 内部的数据源管理机制：

Fluent API 的数据源操作会直接修改底层存储（如文件系统）
但内存中的上下文对象没有实现相应的同步机制
导致内存状态与持久化状态出现短暂不一致
只有通过重新加载上下文，才能强制同步两者状态

解决方案建议

针对这个问题，可以考虑以下改进方向：

内存同步机制：在数据源操作方法中增加内存状态的同步逻辑
状态一致性检查：提供显式的同步方法，让开发者可以手动触发状态同步
文档说明：明确标注这种行为的预期和解决方法

最佳实践

在实际开发中，如果遇到类似问题，可以采取以下临时解决方案：

在关键操作后显式重新加载上下文
避免依赖内存上下文的状态进行重要决策
优先检查持久化存储中的配置状态

总结

Great Expectations 作为数据质量验证的重要工具，其上下文管理的一致性对开发体验至关重要。这个特定的 Fluent 数据源同步问题虽然不影响核心功能，但在某些工作流中可能造成困惑。理解这一行为有助于开发者更好地规划数据源管理策略，避免潜在的问题。

great_expectations

Always know what to expect from your data.

项目地址：https://gitcode.com/GitHub_Trending/gr/great_expectations

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用