Azure Cosmos DB Spark 连接器使用指南

2024-10-09 08:48:55作者：庞眉杨Will

项目介绍

Azure Cosmos DB Spark 连接器 是一个官方支持的桥梁，它实现了Azure Cosmos DB与Apache Spark之间的无缝数据交互。该连接器让开发者能够通过Python和Scala，在Apache Spark DataFrames上轻松地读取和写入Cosmos DB的数据，实现全球化复制下的低延迟大数据处理，适用于批处理、流处理以及服务层构建等场景。最新版本适应了Spark 3.x的环境，并提供了详细的配置参考和迁移指南。

项目快速启动

安装与依赖

确保你的开发环境中已安装正确的Apache Spark版本（支持2.2.1及以上）及Scala对应版本。对于最新的Spark 3.x应用，应使用新的Maven坐标来添加依赖项：

<dependency>
    <groupId>com.azure.cosmos.spark</groupId>
    <artifactId>azure-cosmos-spark_3-1_2-12</artifactId>
    <version>4.0.0</version>
</dependency>

读取Cosmos DB示例

在Python中快速启动读取操作：

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('CosmosDBRead').getOrCreate()

readConfig = {
    "Endpoint": "https://your-account.documents.azure.com:443/",
    "Masterkey": "<Your_Master_Key>",
    "Database": "YourDatabase",
    "Collection": "YourCollection",
    "SamplingRatio": "1.0"
}

df = spark.read.format("com.microsoft.azure.cosmosdb.spark").options(**readConfig).load()
print(df.count())

在Scala中的相似示例：

import org.apache.spark.sql.SparkSession
import com.microsoft.azure.cosmosdb.spark.config.Config

val spark = SparkSession.builder.appName("CosmosDBScalaRead").getOrCreate()

val readConfig = Config(Map(
  "Endpoint" -> "https://your-account.documents.azure.com:443/",
  "Masterkey" -> "<Your_Master_Key>",
  "Database" -> "YourDatabase",
  "Collection" -> "YourCollection"
))

val df = spark.read.cosmosDB(readConfig)
println(df.count())

写入Cosmos DB示例

同样在Python进行写入操作：

writeConfig = {
    "Endpoint": "https://your-account.documents.azure.com:443/",
    "Masterkey": "<Your_Master_Key>",
    "Database": "YourDatabase",
    "Collection": "TargetCollection",
    "Upsert": "true"
}

df.write.format("com.microsoft.azure.cosmosdb.spark").options(**writeConfig).save()

Scala版本的写入示例：

val writeConfig = Config(Map(
  "Endpoint" -> "https://your-account.documents.azure.com:443/",
  "Masterkey" -> "<Your_Master_Key>",
  "Database" -> "YourDatabase",
  "Collection" -> "TargetCollection",
  "Upsert" -> "true"
))

df.write.mode("append").cosmosDB(writeConfig)