Shc项目安装与使用指南

2026-01-18 10:41:02作者：齐冠琰

hortonworks-spark/shc: Apache Spark SQL on Hadoop Compatible File System (SHC) 是一个开源项目，它允许Apache Spark无缝访问Hadoop生态中的列式存储文件格式（如Parquet、ORC等），特别是将Spark SQL与HBase结合，实现高效的查询分析。

项目地址：https://gitcode.com/gh_mirrors/shc/shc

1. 项目目录结构及介绍

Shc，全称为Spark Hadoop Connect，是Hortonworks Spark社区开发的一个用于Spark与Hadoop Hive之间高效数据传输的开源项目。下面是该项目的基本目录结构及其简要说明：

shc/
├── LICENSE.txt             # 许可证文件
├── NOTICE.txt               # 注意事项文件
├── README.md                # 项目读我文件，包含快速入门和基本介绍
├── build.sbt                # SBT构建脚本，用于编译和管理项目依赖
├── project/                 # SBT项目配置文件夹，包含构建插件等
│   └── build.properties
├── core/                    # 核心源代码模块，实现Shc的主要功能
│   ├── src/
│   │   ├── main/
│   │   └── test/
├── examples/                # 示例应用程序，展示了如何使用Shc进行操作
│   ├── src/
│   │   ├── main/
│   │   └── scala/
├── docs/                    # 文档资料，可能包括API文档和额外的说明
├── scripts/                 # 可能包含一些启动或辅助脚本
└── ...                      # 其他潜在的子目录和文件

核心亮点：

core 目录下的代码是项目的核心，实现了与Hive metastore交互的关键逻辑。
examples 提供了如何整合并使用Shc到Spark作业中的实例。

2. 项目的启动文件介绍

Shc作为一个库，其“启动”更多指的是集成到Spark应用中去的过程，而非传统意义上的独立运行程序。因此，没有直接的启动文件，而是通过以下步骤在你的Spark应用中启用它：

添加依赖: 在你的Spark项目中，通过Maven或SBT添加Shc的依赖。
编写Spark应用: 在Scala或Python等语言中，导入Shc相关的包，初始化SparkSession，并使用Shc提供的功能来读写Hive数据。

例如，在SBT项目中，你会在build.sbt加入类似这样的依赖配置:

libraryDependencies += "com.hortonworks.spark" %% "spark-hive-shc" % "版本号"

随后在你的应用代码中使用Shc的功能，如读取Hive表：

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()
      .appName("ShcExample")
      .config("spark.sql.catalogImplementation", "hive")
      .getOrCreate()

// 使用Shc读取Hive表示例
val df = spark.read.format("orc").load("hdfs://path/to/your/table")

3. 项目的配置文件介绍

Shc的配置主要通过Spark的配置以及特定于Shc的参数设定来完成。尽管不存在一个名为“shc.conf”的特定配置文件，但你可以在启动Spark应用时或在spark-defaults.conf中设置以下关键参数：

Spark的通用配置：如spark.master, spark.app.name等。
Shc特有配置：比如指定Thrift服务器地址（如果直接连接Hive Metastore）或配置 Kerberos认证等。这些通常是通过Spark的session配置动态添加的，例如：

spark.conf.set("spark.hadoop.hive.metastore.uris", "thrift://metastore_host:port")

对于更高级或定制化的配置需求，你可能需要调整Hadoop或Hive本身的配置文件（如core-site.xml, hive-site.xml），以确保Shc可以正确访问Hadoop集群和Hive元数据服务。

通过以上方式，你可以灵活配置和使用Shc以满足不同场景下的数据迁移和处理需求。

shc

项目地址：https://gitcode.com/gh_mirrors/shc/shc

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Shc项目安装与使用指南

1. 项目目录结构及介绍

2. 项目的启动文件介绍

3. 项目的配置文件介绍

热门内容推荐

最新内容推荐

项目优选

Shc项目安装与使用指南

1. 项目目录结构及介绍

2. 项目的启动文件介绍

3. 项目的配置文件介绍

相关内容推荐

热门内容推荐

最新内容推荐

项目优选