首页
/ Apache ORC 技术文档

Apache ORC 技术文档

2024-12-23 08:06:44作者:仰钰奇

1. 安装指南

1.1 环境要求

  • Java: 17 或更高版本
  • Maven: 3.9.9 或更高版本
  • CMake: 3.12 或更高版本

1.2 安装步骤

1.2.1 构建完整版本(带调试信息)

mkdir build
cd build
cmake ..
make package
make test-out

1.2.2 构建调试版本

mkdir build
cd build
cmake .. -DCMAKE_BUILD_TYPE=DEBUG
make package
make test-out

1.2.3 构建发布版本(无调试信息)

mkdir build
cd build
cmake .. -DCMAKE_BUILD_TYPE=RELEASE
make package
make test-out

1.2.4 仅构建 Java 库

cd java
./mvnw package

1.2.5 仅构建 C++ 库

mkdir build
cd build
cmake .. -DBUILD_JAVA=OFF
make package
make test-out

1.2.6 构建 C++ 库并启用 AVX512

export ORC_USER_SIMD_LEVEL=AVX512
mkdir build
cd build
cmake .. -DBUILD_JAVA=OFF -DBUILD_ENABLE_AVX512=ON
make package
make test-out

注意:

  • BUILD_ENABLE_AVX512 在编译时设置为 "ON" 或默认值 "OFF"。
  • ORC_USER_SIMD_LEVEL 在运行时设置为 "AVX512" 或默认值 "NONE"。
  • 如果 ORC_USER_SIMD_LEVEL 设置为 "NONE",即使 BUILD_ENABLE_AVX512 设置为 "ON",AVX512 也不会在运行时生效。

2. 项目使用说明

2.1 ORC 文件格式

ORC 是一种自描述的、类型感知的列式文件格式,专为 Hadoop 工作负载设计。它优化了大流量的读取,同时支持快速查找所需行。通过列式存储,读取器只需读取、解压缩和处理当前查询所需的值。

2.2 支持的类型

ORC 支持 Hive 中的所有类型,包括复杂类型:结构体、列表、映射和联合。

2.3 索引支持

ORC 文件在写入时构建内部索引,支持谓词下推,以确定哪些条带需要为特定查询读取,行索引可以将搜索范围缩小到特定的 10,000 行集合。

3. 项目 API 使用文档

3.1 Java API

Java API 提供了读取和写入 ORC 文件的功能。可以通过 Maven 依赖引入:

<dependency>
    <groupId>org.apache.orc</groupId>
    <artifactId>orc</artifactId>
    <version>最新版本</version>
</dependency>

3.2 C++ API

C++ API 提供了读取和写入 ORC 文件的功能。可以通过 CMake 构建并使用。

4. 项目安装方式

4.1 通过 Maven 安装 Java 库

cd java
./mvnw install

4.2 通过 CMake 安装 C++ 库

mkdir build
cd build
cmake ..
make install

4.3 通过 Docker 构建和测试

项目提供了 Docker 脚本,可以在各种 Linux 环境中构建和测试 ORC 项目。

通过以上步骤,您可以顺利安装并使用 Apache ORC 项目,享受其高效的列式存储和查询优化功能。

登录后查看全文
热门项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
22
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
162
2.05 K
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
146
191
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
60
16
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
198
279
apintoapinto
基于golang开发的网关。具有各种插件,可以自行扩展,即插即用。此外,它可以快速帮助企业管理API服务,提高API服务的稳定性和安全性。
Go
22
0
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
950
557
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
96
15
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
346
1.33 K