首页
/ IBM Cloud Pak for Data 中 Watson Knowledge Catalog 数据治理实战教程

IBM Cloud Pak for Data 中 Watson Knowledge Catalog 数据治理实战教程

2025-06-03 20:49:11作者:袁立春Spencer

前言

在当今数据驱动的商业环境中,企业面临着如何有效管理和治理海量数据的挑战。IBM Cloud Pak for Data 平台上的 Watson Knowledge Catalog (WKC) 提供了一套完整的解决方案,帮助企业实现数据资产的发现、准备和理解。本教程将带您深入了解如何使用 WKC 解决企业数据治理的关键问题。

技术概览

Watson Knowledge Catalog 是 IBM Cloud Pak for Data 平台的核心组件之一,它提供了以下关键功能:

  1. 数据资产目录:集中管理企业所有数据资产
  2. 数据治理:实施数据保护规则和访问控制
  3. 元数据管理:通过业务术语、数据分类等增强数据理解
  4. 数据质量:确保数据的准确性和一致性

环境准备

在开始本教程前,请确保您已具备:

  • IBM Cloud Pak for Data 平台访问权限
  • Watson Knowledge Catalog 服务已部署
  • 创建和管理目录的管理员权限

实战步骤详解

第一步:创建数据目录并添加数据

数据目录是 WKC 的核心组织单元,类似于文件系统中的文件夹,但功能更为强大。

创建目录步骤

  1. 通过平台导航菜单进入"组织 > 所有目录"
  2. 点击"创建目录"按钮
  3. 输入目录名称(如"电信数据目录")
  4. 勾选"强制执行数据保护规则"选项
  5. 确认创建

添加数据资产的三种方式

  1. 本地文件上传

    • 下载示例 CSV 文件
    • 通过"添加到目录"功能选择本地文件
    • 上传并等待处理完成
  2. 数据库连接

    • 创建到 Db2 Warehouse 等数据库的连接
    • 测试连接并保存配置
    • 连接成功后可在目录中查看
  3. 虚拟化数据

    • 选择已连接的虚拟化数据源
    • 浏览并选择需要添加的表
    • 完成添加后可在项目中直接使用

第二步:协作与访问控制

WKC 提供了精细的权限管理功能,确保数据安全的同时促进团队协作。

添加协作者

  1. 进入目录的"访问控制"选项卡
  2. 点击"添加协作者"按钮
  3. 搜索并选择用户
  4. 分配适当角色(管理员/编辑者/查看者)

数据预览与评审

  1. 点击数据资产名称查看详情
  2. 在"预览"选项卡中查看数据样本
  3. 使用"评审"选项卡添加注释和反馈

第三步:构建分类体系

分类体系是数据治理的基础,WKC 支持两种创建方式:

方法一:CSV 批量导入

  1. 准备包含分类结构的 CSV 文件
  2. 通过导入功能上传文件
  3. 选择合并选项(如替换所有值)
  4. 完成导入并验证结果

方法二:手动创建

  1. 在分类管理界面点击"创建分类"
  2. 输入分类名称和描述
  3. 可选设置分类类型(如业务术语)
  4. 创建子分类构建层次结构

第四步:定义数据类

数据类描述了数据的格式和特征,WKC 既支持自动推断也允许自定义。

创建自定义数据类

  1. 进入"数据类"管理界面
  2. 点击"新建数据类"(如"字母数字")
  3. 设置相关属性和描述
  4. 保存为草稿或直接发布

应用数据类

  1. 在目录中找到目标数据列
  2. 打开列信息面板
  3. 搜索并选择合适的数据类
  4. 保存更改

第五步:业务术语管理

业务术语是连接技术与业务的桥梁,确保全企业对数据理解一致。

创建业务术语

  1. 进入业务术语管理界面
  2. 创建新术语(如"计费")
  3. 添加详细定义和说明
  4. 发布供全企业使用

关联业务术语

  1. 在数据列信息面板中
  2. 点击业务术语编辑图标
  3. 搜索并选择相关术语
  4. 应用更改

第六步:实施数据保护策略

数据保护是治理的核心,WKC 提供了灵活的规则定义方式。

创建保护规则

  1. 进入规则管理界面
  2. 选择创建"数据保护规则"
  3. 定义规则名称和类型
  4. 设置条件(如包含特定业务术语)
  5. 配置保护动作(如数据掩码)

规则效果验证

  1. 以不同权限用户登录
  2. 查看受保护数据的显示差异
  3. 确认敏感信息已被适当处理

最佳实践建议

  1. 分类体系设计:建议从企业级顶层设计开始,逐步细化
  2. 术语标准化:建立术语管理流程,确保一致性
  3. 渐进式治理:从关键数据开始,逐步扩大治理范围
  4. 角色分工:明确数据管理员、技术专家和业务用户的责任

总结

通过本教程,您已经掌握了 Watson Knowledge Catalog 的核心功能和使用方法。从创建目录、添加数据,到建立分类体系、定义业务术语,再到实施数据保护策略,WKC 提供了一套完整的数据治理解决方案。这些功能协同工作,能够帮助企业实现:

  1. 数据资产的集中管理和发现
  2. 敏感数据的保护和合规
  3. 跨团队的数据理解和协作
  4. 数据质量的持续监控和改进

作为 IBM Cloud Pak for Data 学习路径的一部分,掌握 WKC 是成为数据治理专家的关键一步。建议您继续探索平台的其他功能,如 Watson Machine Learning 和 AutoAI,构建完整的数据与 AI 解决方案。

登录后查看全文
热门项目推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
860
511
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
kernelkernel
deepin linux kernel
C
22
5
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
596
57
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K