Apache ORC 技术文档
2024-12-18 01:52:13作者:仰钰奇
1. 安装指南
1.1 环境要求
- Java: 17 或更高版本
- Maven: 3.9.9 或更高版本
- CMake: 3.12 或更高版本
1.2 安装步骤
1.2.1 构建完整版本(带调试信息)
mkdir build
cd build
cmake ..
make package
make test-out
1.2.2 构建调试版本
mkdir build
cd build
cmake .. -DCMAKE_BUILD_TYPE=DEBUG
make package
make test-out
1.2.3 构建发布版本(无调试信息)
mkdir build
cd build
cmake .. -DCMAKE_BUILD_TYPE=RELEASE
make package
make test-out
1.2.4 仅构建 Java 库
cd java
./mvnw package
1.2.5 仅构建 C++ 库
mkdir build
cd build
cmake .. -DBUILD_JAVA=OFF
make package
make test-out
1.2.6 构建 C++ 库并启用 AVX512
export ORC_USER_SIMD_LEVEL=AVX512
mkdir build
cd build
cmake .. -DBUILD_JAVA=OFF -DBUILD_ENABLE_AVX512=ON
make package
make test-out
注意:
BUILD_ENABLE_AVX512
在编译时设置为 "ON" 或默认值 "OFF"。ORC_USER_SIMD_LEVEL
在运行时设置为 "AVX512" 或默认值 "NONE"。- 如果
ORC_USER_SIMD_LEVEL
设置为 "NONE",即使BUILD_ENABLE_AVX512
设置为 "ON",AVX512 也不会在运行时生效。
2. 项目使用说明
2.1 ORC 文件格式
ORC 是一种自描述的、类型感知的列式文件格式,专为 Hadoop 工作负载设计。它优化了大流量的读取,同时支持快速查找所需行。通过列式存储,读取器只需读取、解压缩和处理当前查询所需的值。
2.2 支持的类型
ORC 支持 Hive 中的所有类型,包括复杂类型:结构体、列表、映射和联合。
2.3 索引支持
ORC 文件在写入时构建内部索引,支持谓词下推,以确定哪些条带需要为特定查询读取,行索引可以将搜索范围缩小到特定的 10,000 行集合。
3. 项目 API 使用文档
3.1 Java API
Java API 提供了读取和写入 ORC 文件的功能。可以通过 Maven 依赖引入:
<dependency>
<groupId>org.apache.orc</groupId>
<artifactId>orc</artifactId>
<version>最新版本</version>
</dependency>
3.2 C++ API
C++ API 提供了读取和写入 ORC 文件的功能。可以通过 CMake 构建并使用。
4. 项目安装方式
4.1 通过 Maven 安装 Java 库
cd java
./mvnw install
4.2 通过 CMake 安装 C++ 库
mkdir build
cd build
cmake ..
make install
4.3 通过 Docker 构建和测试
项目提供了 Docker 脚本,可以在各种 Linux 环境中构建和测试 ORC 项目。
通过以上步骤,您可以顺利安装并使用 Apache ORC 项目,享受其高效的列式存储和查询优化功能。
登录后查看全文
热门内容推荐
最新内容推荐
Raycast-G4F项目v5.4版本深度解析:AI交互增强与功能升级 MethaneKit v0.8.0发布:图形渲染引擎的重大升级 Adafruit CircuitPython Bundle 20250225版本更新解析 LINE Bot SDK Go v8.12.0 发布:全面支持会员管理API与Webhook SmartHR UI 74.1.0 版本发布:新增文件查看器与时间线组件 SVG Gobbler v5.17版本解析:SVG图标管理工具的重大更新 99AI v4.1.0 版本深度解析:深度思考标签适配与联网搜索优化 SquirrelServersManager v0.1.28-alpha版本技术解析:SFTP模块与系统监控增强 BabitMF/bmf 0.1.0版本发布:多媒体处理框架的重要升级 Forge-std 1.9.6版本发布:智能合约测试工具的重要更新
项目优选
收起

本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
295
957

🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
493
393

React Native鸿蒙化仓库
C++
111
196

openGauss kernel ~ openGauss is an open source relational database management system
C++
59
140

本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
356
321

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
51
14

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
97
251

ArkAnalyzer-HapRay 是一款专门为OpenHarmony应用性能分析设计的工具。它能够提供应用程序性能的深度洞察,帮助开发者优化应用,以提升用户体验。
Python
18
6

方舟分析器:面向ArkTS语言的静态程序分析框架
TypeScript
33
38

基于仓颉编程语言构建的 LLM Agent 开发框架,其主要特点包括:Agent DSL、支持 MCP 协议,支持模块化调用,支持任务智能规划。
Cangjie
579
41