Amundsen Databuilder 项目教程
2024-08-25 15:33:28作者:殷蕙予
1. 项目的目录结构及介绍
Amundsen Databuilder 是一个数据摄取库,用于构建 Amundsen 的图谱和搜索索引。以下是其主要目录结构及其功能介绍:
amundsendatabuilder/
├── examples/
│ ├── airflow_dag_example.py
│ ├── example_databuilder.py
│ └── ...
├── amundsen_databuilder/
│ ├── models/
│ ├── publisher/
│ ├── extractor/
│ ├── transformer/
│ ├── task/
│ ├── builder/
│ ├── util/
│ └── ...
├── setup.py
├── README.md
└── ...
examples/: 包含示例脚本,如如何在 Apache Airflow 中使用 Databuilder。amundsen_databuilder/: 核心代码目录,包含各种模块如模型、发布器、提取器、转换器、任务、构建器和工具类。setup.py: 用于安装项目的脚本。README.md: 项目的主要介绍文档。
2. 项目的启动文件介绍
项目的启动文件通常是 example_databuilder.py 或 airflow_dag_example.py,具体取决于你是在独立脚本中使用还是在 Apache Airflow 中使用。
example_databuilder.py
这是一个示例脚本,展示了如何使用 Databuilder 进行数据摄取:
from amundsen_databuilder.task.task import DefaultTask
from amundsen_databuilder.extractor.neo4j_extractor import Neo4jExtractor
from amundsen_databuilder.publisher.neo4j_publisher import Neo4jPublisher
from amundsen_databuilder.transformer.base_transformer import NoopTransformer
# 配置和启动任务
task = DefaultTask(extractor=Neo4jExtractor(), transformer=NoopTransformer(), publisher=Neo4jPublisher())
task.launch()
airflow_dag_example.py
如果你在 Apache Airflow 中使用 Databuilder,可以使用这个示例 DAG 文件:
from airflow import DAG
from airflow.operators.python_operator import PythonOperator
from datetime import datetime
def run_databuilder():
from amundsen_databuilder.task.task import DefaultTask
from amundsen_databuilder.extractor.neo4j_extractor import Neo4jExtractor
from amundsen_databuilder.publisher.neo4j_publisher import Neo4jPublisher
from amundsen_databuilder.transformer.base_transformer import NoopTransformer
task = DefaultTask(extractor=Neo4jExtractor(), transformer=NoopTransformer(), publisher=Neo4jPublisher())
task.launch()
default_args = {
'owner': 'airflow',
'start_date': datetime(2023, 1, 1),
}
dag = DAG('amundsen_databuilder_dag', default_args=default_args, schedule_interval='@daily')
run_task = PythonOperator(
task_id='run_databuilder',
python_callable=run_databuilder,
dag=dag,
)
run_task
3. 项目的配置文件介绍
Amundsen Databuilder 的配置通常通过环境变量或配置文件进行。以下是一个示例配置文件 config.yaml:
extractor:
type: "neo4j"
config:
neo4j_endpoint: "bolt://localhost:7687"
neo4j_user: "neo4j"
neo4j_password: "password"
transformer:
type: "noop"
publisher:
type: "neo4j"
config:
neo4j_endpoint: "bolt://localhost:7687"
neo4j_user: "neo4j"
neo4j_password: "password"
这个配置文件定义了提取器、转换器和发布器的类型及其配置参数。你可以根据需要修改这些参数以适应你的环境。
以上是 Amundsen Databuilder 项目的基本教程,涵盖了目录
登录后查看全文
热门项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0153- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
LongCat-Video-Avatar-1.5最新开源LongCat-Video-Avatar 1.5 版本,这是一款经过升级的开源框架,专注于音频驱动人物视频生成的极致实证优化与生产级就绪能力。该版本在 LongCat-Video 基础模型之上构建,可生成高度稳定的商用级虚拟人视频,支持音频-文本转视频(AT2V)、音频-文本-图像转视频(ATI2V)以及视频续播等原生任务,并能无缝兼容单流与多流音频输入。00
auto-devAutoDev 是一个 AI 驱动的辅助编程插件。AutoDev 支持一键生成测试、代码、提交信息等,还能够与您的需求管理系统(例如Jira、Trello、Github Issue 等)直接对接。 在IDE 中,您只需简单点击,AutoDev 会根据您的需求自动为您生成代码。Kotlin03
Intern-S2-PreviewIntern-S2-Preview,这是一款高效的350亿参数科学多模态基础模型。除了常规的参数与数据规模扩展外,Intern-S2-Preview探索了任务扩展:通过提升科学任务的难度、多样性与覆盖范围,进一步释放模型能力。Python00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0112
热门内容推荐
最新内容推荐
项目优选
收起
暂无描述
Dockerfile
733
4.75 K
Ascend Extension for PyTorch
Python
649
796
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
434
395
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.01 K
1.01 K
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
1.24 K
153
deepin linux kernel
C
30
16
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
146
237
暂无简介
Dart
985
253
昇腾LLM分布式训练框架
Python
167
200
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.68 K
990