【亲测免费】 Apache Amoro(孵化中)安装与使用指南
目录结构及介绍
当你成功克隆或下载了Apache Amoro项目后,你会看到如下所示的目录结构:
amoro/
├── amoro-ams # Amoro管理服务模块
│ ├── amoro-ams-api # Ams Thrift API和通用接口
│ ├── amoro-ams-dashboard # Ams仪表板前端
│ └── amoro-ams-server # Ams后端服务器
├── amoro-core # 核心抽象和其他模块的公共实现
├── amoro-mixed-format # 提供Mixed格式实现
│ ├── amoro-mixed-format-hive # 集成Apache Hive并实施Mixed Hive格式
│ ├── amoro-mixed-format-flink # 为Flink提供Mixed格式表连接器
│ └── amoro-mixed-format-spark # 为Spark提供Mixed格式表连接器
├── charts # Helm图表用于部署Kubernetes
├── dev # 开发相关文件
├── docker # Docker相关文件
├── docs # 文档
├── licenses-binary # 二进制许可证文件
├── tools # 工具脚本
├── .gitignore # Git忽略规则
├── CONTRIBUTING.md # 贡献者指南
├── DISCLAIMER # 免责声明
├── LICENSE # 许可证
├── LICENSE-binary # 二进制许可证
├── NOTICES # 版权通知
├── NOTICE-binary # 二进制版权通知
├── README.md # 主读我文件
├── pom.xml # Maven构建配置
└── ...
amoro-ams: 管理服务模块包含了Amoro的核心功能和服务。amoro-core: 包含其他模块的通用核心实现逻辑。amoro-mixed-format: 支持多种存储格式的模块。
启动文件介绍
在Amoro的主目录下,并没有直接可以运行的服务端点或者应用入口点,这是因为Amoro本身是设计为一个高度模块化和可扩展的系统,它的各部分组件可以通过Maven进行编译打包,然后在相应的环境中启动。以下是一些关键的启动指令:
Maven构建命令
-
构建所有模块(除了
amoro-mixed-format-trino)mvn clean package -
构建并跳过测试
mvn clean package -DskipTests -
构建并跳过仪表板编译
mvn clean package -Pskip-dashboard-build -
构建并禁用磁盘存储RocksDB以避免内存溢出
mvn clean package -DskipTests -Pno-extented-disk-storage -
使用Hadoop 2.x依赖项构建(默认为3.x)
mvn clean package -DskipTests -Phadoop2 -
指定Flink版本用于优化器
mvn clean package -DskipTests -Dflink-optimizer-version=1.18.1
这些构建完成后,你可以通过查看各个模块下的target目录来找到构建后的可执行文件或包。
配置文件介绍
Amoro的大部分配置都发生在其不同模块内部,在构建和运行特定组件时,可以通过传递环境变量或者修改代码中的默认设置来进行微调。例如,对于amoro-ams-server模块,它可能会有自身的属性文件如application.properties或者application.yml用来定义服务地址、端口等参数。
由于Amoro的设计原则之一是在分布式环境中灵活适应,因此它的配置方式可能更加倾向于动态配置中心或者环境变量注入的方式,具体可以在项目的文档和源代码注释中查找详细的信息。
为了确保正确地启动和运行每个组件,建议参考各个子模块的详细文档,通常这些文档会被放在对应的docs目录下,或者是项目的GitHub仓库Readme中提供的链接。对于复杂的生产环境部署,还应关注Amoro提供的Helm Charts,这将帮助你在Kubernetes集群上更容易地部署和管理整个Amoro系统。
以上就是关于Apache Amoro项目的目录结构、启动文件以及配置文件的大致说明,希望对你的使用带来便利。如果有更详细的配置需求或者其他技术问题,欢迎进一步查阅项目文档或参与社区讨论。
kernelopenEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。C0105
baihu-dataset异构数据集“白虎”正式开源——首批开放10w+条真实机器人动作数据,构建具身智能标准化训练基座。00
mindquantumMindQuantum is a general software library supporting the development of applications for quantum computation.Python059
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00
GLM-4.7GLM-4.7上线并开源。新版本面向Coding场景强化了编码能力、长程任务规划与工具协同,并在多项主流公开基准测试中取得开源模型中的领先表现。 目前,GLM-4.7已通过BigModel.cn提供API,并在z.ai全栈开发模式中上线Skills模块,支持多模态任务的统一规划与协作。Jinja00
AgentCPM-Explore没有万亿参数的算力堆砌,没有百万级数据的暴力灌入,清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的 AgentCPM-Explore 智能体模型基于仅 4B 参数的模型,在深度探索类任务上取得同尺寸模型 SOTA、越级赶上甚至超越 8B 级 SOTA 模型、比肩部分 30B 级以上和闭源大模型的效果,真正让大模型的长程任务处理能力有望部署于端侧。Jinja00