IBM Cloud Pak for Data 中 Watson Knowledge Catalog 数据治理实战教程

2025-06-03 18:27:24作者：袁立春Spencer

前言

在当今数据驱动的商业环境中，企业面临着如何有效管理和治理海量数据的挑战。IBM Cloud Pak for Data 平台上的 Watson Knowledge Catalog (WKC) 提供了一套完整的解决方案，帮助企业实现数据资产的发现、准备和理解。本教程将带您深入了解如何使用 WKC 解决企业数据治理的关键问题。

技术概览

Watson Knowledge Catalog 是 IBM Cloud Pak for Data 平台的核心组件之一，它提供了以下关键功能：

数据资产目录：集中管理企业所有数据资产
数据治理：实施数据保护规则和访问控制
元数据管理：通过业务术语、数据分类等增强数据理解
数据质量：确保数据的准确性和一致性

环境准备

在开始本教程前，请确保您已具备：

IBM Cloud Pak for Data 平台访问权限
Watson Knowledge Catalog 服务已部署
创建和管理目录的管理员权限

实战步骤详解

第一步：创建数据目录并添加数据

数据目录是 WKC 的核心组织单元，类似于文件系统中的文件夹，但功能更为强大。

创建目录步骤：

通过平台导航菜单进入"组织 > 所有目录"
点击"创建目录"按钮
输入目录名称(如"电信数据目录")
勾选"强制执行数据保护规则"选项
确认创建

添加数据资产的三种方式：

本地文件上传：
- 下载示例 CSV 文件
- 通过"添加到目录"功能选择本地文件
- 上传并等待处理完成
数据库连接：
- 创建到 Db2 Warehouse 等数据库的连接
- 测试连接并保存配置
- 连接成功后可在目录中查看
虚拟化数据：
- 选择已连接的虚拟化数据源
- 浏览并选择需要添加的表
- 完成添加后可在项目中直接使用

第二步：协作与访问控制

WKC 提供了精细的权限管理功能，确保数据安全的同时促进团队协作。

添加协作者：

进入目录的"访问控制"选项卡
点击"添加协作者"按钮
搜索并选择用户
分配适当角色(管理员/编辑者/查看者)

数据预览与评审：

点击数据资产名称查看详情
在"预览"选项卡中查看数据样本
使用"评审"选项卡添加注释和反馈

第三步：构建分类体系

分类体系是数据治理的基础，WKC 支持两种创建方式：

方法一：CSV 批量导入

准备包含分类结构的 CSV 文件
通过导入功能上传文件
选择合并选项(如替换所有值)
完成导入并验证结果

方法二：手动创建

在分类管理界面点击"创建分类"
输入分类名称和描述
可选设置分类类型(如业务术语)
创建子分类构建层次结构

第四步：定义数据类

数据类描述了数据的格式和特征，WKC 既支持自动推断也允许自定义。

创建自定义数据类：

进入"数据类"管理界面
点击"新建数据类"(如"字母数字")
设置相关属性和描述
保存为草稿或直接发布

应用数据类：

在目录中找到目标数据列
打开列信息面板
搜索并选择合适的数据类
保存更改

第五步：业务术语管理

业务术语是连接技术与业务的桥梁，确保全企业对数据理解一致。

创建业务术语：

进入业务术语管理界面
创建新术语(如"计费")
添加详细定义和说明
发布供全企业使用

关联业务术语：

在数据列信息面板中
点击业务术语编辑图标
搜索并选择相关术语
应用更改

第六步：实施数据保护策略

数据保护是治理的核心，WKC 提供了灵活的规则定义方式。

创建保护规则：

进入规则管理界面
选择创建"数据保护规则"
定义规则名称和类型
设置条件(如包含特定业务术语)
配置保护动作(如数据掩码)

规则效果验证：

以不同权限用户登录
查看受保护数据的显示差异
确认敏感信息已被适当处理

最佳实践建议

分类体系设计：建议从企业级顶层设计开始，逐步细化
术语标准化：建立术语管理流程，确保一致性
渐进式治理：从关键数据开始，逐步扩大治理范围
角色分工：明确数据管理员、技术专家和业务用户的责任

总结

通过本教程，您已经掌握了 Watson Knowledge Catalog 的核心功能和使用方法。从创建目录、添加数据，到建立分类体系、定义业务术语，再到实施数据保护策略，WKC 提供了一套完整的数据治理解决方案。这些功能协同工作，能够帮助企业实现：

数据资产的集中管理和发现
敏感数据的保护和合规
跨团队的数据理解和协作
数据质量的持续监控和改进

作为 IBM Cloud Pak for Data 学习路径的一部分，掌握 WKC 是成为数据治理专家的关键一步。建议您继续探索平台的其他功能，如 Watson Machine Learning 和 AutoAI，构建完整的数据与 AI 解决方案。

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

昇腾LLM分布式训练框架