Apache Gravitino 0.9.0 版本发布：AI数据治理与安全能力全面升级

2025-07-01 05:37:22作者：吴年前Myrtle

World's most powerful open data catalog for building a high-performance, geo-distributed and federated metadata lake.

项目地址：https://gitcode.com/GitHub_Trending/gr/gravitino

Apache Gravitino 是一个开源的元数据管理平台，旨在为数据湖和AI工作负载提供统一的元数据管理能力。作为数据治理领域的创新项目，Gravitino通过标准化的接口和抽象层，帮助用户管理跨不同存储系统的数据资产，同时提供强大的安全控制和数据血缘追踪功能。

近日，Apache Gravitino社区正式发布了0.9.0版本，这是该项目孵化阶段的一个重要里程碑。本次更新聚焦于AI数据治理、安全增强和性能优化三大方向，多项新特性已在生产环境中得到验证。下面我们将深入解析这一版本的核心技术亮点。

模型目录功能增强

在AI时代，模型元数据管理变得至关重要。0.9.0版本对模型目录(Model Catalog)进行了重大改进，使其从只读状态变为可修改状态。现在用户可以：

修改模型的基本属性和配置
调整模型版本信息
为模型和版本添加自定义标签

这些改进使得模型元数据管理更加灵活，能够适应AI工作流中频繁迭代的需求。数据科学家和ML工程师可以更方便地追踪模型版本变更，为模型打上业务相关的标签，实现更精细的模型治理。

文件集目录的多位置支持与动态路径

文件集目录(Fileset Catalog)是管理非结构化数据的关键组件。0.9.0版本引入了两项重要特性：

多存储位置支持：单个文件集现在可以关联多个存储位置，每个位置可以指向不同的文件系统(HDFS、S3、GCS等)。这种设计特别适合多云环境，用户可以通过统一的接口访问分布在多个云存储中的数据。
动态路径生成：采用{{placeholder}}语法实现模板化路径。系统会自动将占位符替换为文件集的实际属性值，大大简化了复杂目录结构的维护工作。

这些改进显著提升了跨云数据管理的灵活性，同时保持了简洁的抽象层，使得用户无需关心底层存储的复杂性。

Gravitino虚拟文件系统(GVFS)架构升级

GVFS作为访问文件集的统一接口，在0.9.0版本中获得了重要增强：

多位置选择机制：用户可以通过配置文件、环境变量或文件集默认设置来选择访问哪个存储位置，为不同环境提供灵活的访问策略。
插件式架构：通过operations_class和hook_class配置选项，用户可以注入自定义操作和钩子函数。这种设计使得GVFS能够更好地适应企业特定的基础设施需求，实现深度集成。

安全体系全面强化

安全始终是数据治理的核心。0.9.0版本在安全方面进行了多项改进：

权限模型完善：
- 新增数据模型相关权限
- 修正了部分权限语义，使授权逻辑更加准确
Ranger插件优化：
- 修复了路径授权场景下的边界条件问题
- 提升了插件在复杂场景下的稳定性
事件系统扩展：
- 完整支持用户、用户组和角色相关的事件
- 为审计和监控提供更全面的数据支持

这些改进使得Gravitino的安全体系更加健壮，能够满足企业级数据治理的严格要求。

数据血缘追踪能力

0.9.0版本新增了符合OpenLineage规范的数据血缘接口。用户可以实现自定义的血缘插件，将Gravitino集成到现有的数据血缘生态中。这一特性为数据治理提供了重要的可观测性能力，帮助用户：

追踪数据来源和流向
分析数据变更的影响范围
满足合规性要求

核心架构性能优化

在底层架构方面，0.9.0版本进行了多项性能改进：

缩小锁范围，减少并发冲突
实现批量数据读取，降低I/O开销
优化存储访问模式

这些优化显著提升了系统在高负载场景下的响应能力，为大规模元数据管理提供了更好的基础。

开发者体验改进

0.9.0版本也关注了开发者体验的提升：

CLI工具改进：提供了标准的启动脚本(./bin/gcli.sh)，简化了命令行客户端的启动过程。
连接器增强：Flink和Spark连接器都新增了JDBC支持，扩展了与大数据生态的集成能力。
Kubernetes支持：Helm chart现在支持完全自定义的配置，使云原生部署更加灵活。

总结

Apache Gravitino 0.9.0版本在AI数据治理、安全控制和系统性能等方面取得了显著进步。通过模型目录和文件集目录的增强，它为AI工作负载提供了更好的元数据管理支持；安全体系的完善使其更适合企业级部署；而性能优化则为大规模应用奠定了基础。

这一版本的发布标志着Gravitino在数据治理领域的持续创新，也为用户构建现代化数据架构提供了更强大的工具。随着AI和数据湖技术的快速发展，Gravitino这类统一元数据管理平台的价值将愈发凸显。

World's most powerful open data catalog for building a high-performance, geo-distributed and federated metadata lake.

项目地址：https://gitcode.com/GitHub_Trending/gr/gravitino

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理