AWS SDK for pandas 使用教程

2024-09-15 07:35:50作者：乔或婵

pandas on AWS - Easy integration with Athena, Glue, Redshift, Timestream, Neptune, OpenSearch, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer and S3 (Parquet, CSV, JSON and EXCEL).

项目地址：https://gitcode.com/gh_mirrors/aw/aws-sdk-pandas

1. 项目介绍

AWS SDK for pandas（awswrangler）是一个由AWS专业服务团队开发的Python开源项目，旨在将pandas库的功能扩展到AWS云环境中。该项目通过连接pandas DataFrames与AWS的数据和分析服务，简化了数据处理和分析的流程。AWS SDK for pandas支持与多种AWS服务集成，包括Athena、Glue、Redshift、Timestream、OpenSearch、Neptune、QuickSight、Chime、CloudWatchLogs、DynamoDB、EMR、SecretManager、PostgreSQL、MySQL、SQLServer和S3等。

2. 项目快速启动

安装

首先，使用pip安装AWS SDK for pandas：

pip install awswrangler

快速启动代码示例

以下是一个简单的代码示例，展示了如何使用AWS SDK for pandas进行数据存储和检索：

import awswrangler as wr
import pandas as pd
from datetime import datetime

# 创建一个DataFrame
df = pd.DataFrame({"id": [1, 2], "value": ["foo", "boo"]})

# 将数据存储到S3 Data Lake
wr.s3.to_parquet(
    df=df,
    path="s3://bucket/dataset/",
    dataset=True,
    database="my_db",
    table="my_table"
)

# 从Amazon S3直接检索数据
df = wr.s3.read_parquet("s3://bucket/dataset/", dataset=True)

# 从Amazon Athena检索数据
df = wr.athena.read_sql_query("SELECT * FROM my_table", database="my_db")

# 获取Redshift连接并从Redshift Spectrum检索数据
con = wr.redshift.connect("my-glue-connection")
df = wr.redshift.read_sql_query("SELECT * FROM external_schema.my_table", con=con)
con.close()

# Amazon Timestream写入
df = pd.DataFrame({
    "time": [datetime.now(), datetime.now()],
    "my_dimension": ["foo", "boo"],
    "measure": [1.0, 1.1]
})
rejected_records = wr.timestream.write(
    df,
    database="sampleDB",
    table="sampleTable",
    time_col="time",
    measure_col="measure",
    dimensions_cols=["my_dimension"]
)

# Amazon Timestream查询
result = wr.timestream.query("""
    SELECT time, measure_value::double, my_dimension
    FROM "sampleDB"."sampleTable"
    ORDER BY time DESC LIMIT 3
""")

3. 应用案例和最佳实践

数据湖集成

AWS SDK for pandas可以轻松地将数据存储到S3数据湖中，并从数据湖中检索数据。通过与AWS Glue和Athena的集成，用户可以方便地进行数据目录管理和查询。

数据仓库集成

通过与Amazon Redshift的集成，用户可以轻松地将数据加载到Redshift中，并从Redshift Spectrum中检索数据。这使得用户可以在数据仓库中进行大规模的数据处理和分析。

时序数据处理

AWS SDK for pandas支持与Amazon Timestream的集成，使用户能够轻松地处理和分析时序数据。通过Timestream，用户可以存储和查询大规模的时序数据。

4. 典型生态项目

Modin

Modin是一个用于加速pandas工作负载的开源项目，通过分布式处理来提高数据处理速度。AWS SDK for pandas可以与Modin集成，以在分布式环境中运行数据处理任务。

Ray

Ray是一个用于构建分布式应用程序的开源框架。AWS SDK for pandas可以通过Ray来扩展其功能，使用户能够在分布式集群上运行数据处理任务。

Apache Arrow

Apache Arrow是一个用于内存数据的高性能跨语言开发平台。AWS SDK for pandas基于Apache Arrow构建，提供了高效的数据处理能力。

通过这些生态项目的集成，AWS SDK for pandas为用户提供了强大的数据处理和分析能力，使其能够在AWS云环境中高效地处理大规模数据。

pandas on AWS - Easy integration with Athena, Glue, Redshift, Timestream, Neptune, OpenSearch, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer and S3 (Parquet, CSV, JSON and EXCEL).

项目地址：https://gitcode.com/gh_mirrors/aw/aws-sdk-pandas

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook