Amundsen Databuilder 项目教程
2024-08-25 15:33:28作者:殷蕙予
1. 项目的目录结构及介绍
Amundsen Databuilder 是一个数据摄取库,用于构建 Amundsen 的图谱和搜索索引。以下是其主要目录结构及其功能介绍:
amundsendatabuilder/
├── examples/
│ ├── airflow_dag_example.py
│ ├── example_databuilder.py
│ └── ...
├── amundsen_databuilder/
│ ├── models/
│ ├── publisher/
│ ├── extractor/
│ ├── transformer/
│ ├── task/
│ ├── builder/
│ ├── util/
│ └── ...
├── setup.py
├── README.md
└── ...
examples/: 包含示例脚本,如如何在 Apache Airflow 中使用 Databuilder。amundsen_databuilder/: 核心代码目录,包含各种模块如模型、发布器、提取器、转换器、任务、构建器和工具类。setup.py: 用于安装项目的脚本。README.md: 项目的主要介绍文档。
2. 项目的启动文件介绍
项目的启动文件通常是 example_databuilder.py 或 airflow_dag_example.py,具体取决于你是在独立脚本中使用还是在 Apache Airflow 中使用。
example_databuilder.py
这是一个示例脚本,展示了如何使用 Databuilder 进行数据摄取:
from amundsen_databuilder.task.task import DefaultTask
from amundsen_databuilder.extractor.neo4j_extractor import Neo4jExtractor
from amundsen_databuilder.publisher.neo4j_publisher import Neo4jPublisher
from amundsen_databuilder.transformer.base_transformer import NoopTransformer
# 配置和启动任务
task = DefaultTask(extractor=Neo4jExtractor(), transformer=NoopTransformer(), publisher=Neo4jPublisher())
task.launch()
airflow_dag_example.py
如果你在 Apache Airflow 中使用 Databuilder,可以使用这个示例 DAG 文件:
from airflow import DAG
from airflow.operators.python_operator import PythonOperator
from datetime import datetime
def run_databuilder():
from amundsen_databuilder.task.task import DefaultTask
from amundsen_databuilder.extractor.neo4j_extractor import Neo4jExtractor
from amundsen_databuilder.publisher.neo4j_publisher import Neo4jPublisher
from amundsen_databuilder.transformer.base_transformer import NoopTransformer
task = DefaultTask(extractor=Neo4jExtractor(), transformer=NoopTransformer(), publisher=Neo4jPublisher())
task.launch()
default_args = {
'owner': 'airflow',
'start_date': datetime(2023, 1, 1),
}
dag = DAG('amundsen_databuilder_dag', default_args=default_args, schedule_interval='@daily')
run_task = PythonOperator(
task_id='run_databuilder',
python_callable=run_databuilder,
dag=dag,
)
run_task
3. 项目的配置文件介绍
Amundsen Databuilder 的配置通常通过环境变量或配置文件进行。以下是一个示例配置文件 config.yaml:
extractor:
type: "neo4j"
config:
neo4j_endpoint: "bolt://localhost:7687"
neo4j_user: "neo4j"
neo4j_password: "password"
transformer:
type: "noop"
publisher:
type: "neo4j"
config:
neo4j_endpoint: "bolt://localhost:7687"
neo4j_user: "neo4j"
neo4j_password: "password"
这个配置文件定义了提取器、转换器和发布器的类型及其配置参数。你可以根据需要修改这些参数以适应你的环境。
以上是 Amundsen Databuilder 项目的基本教程,涵盖了目录
登录后查看全文
热门项目推荐
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
jiuwenclawJiuwenClaw 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。Python0141- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
AtomGit城市坐标计划AtomGit 城市坐标计划开启!让开源有坐标,让城市有星火。致力于与城市合伙人共同构建并长期运营一个健康、活跃的本地开发者生态。00
CherryUSBCherryUSB 是一个小而美的、可移植性高的、用于嵌入式系统(带 USB IP)的高性能 USB 主从协议栈C00
项目优选
收起
deepin linux kernel
C
27
11
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
592
4 K
Ascend Extension for PyTorch
Python
423
505
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
912
739
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
364
233
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
69
21
暂无简介
Dart
830
203
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.43 K
804
AscendNPU-IR是基于MLIR(Multi-Level Intermediate Representation)构建的,面向昇腾亲和算子编译时使用的中间表示,提供昇腾完备表达能力,通过编译优化提升昇腾AI处理器计算效率,支持通过生态框架使能昇腾AI处理器与深度调优
C++
109
164
昇腾LLM分布式训练框架
Python
129
152