使用aws-sdk-pandas创建Athena CTAS表的正确方法

2025-06-16 16:51:00作者：彭桢灵Jeremy

pandas on AWS - Easy integration with Athena, Glue, Redshift, Timestream, Neptune, OpenSearch, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer and S3 (Parquet, CSV, JSON and EXCEL).

项目地址：https://gitcode.com/gh_mirrors/aw/aws-sdk-pandas

在数据分析工作中，我们经常需要将查询结果直接保存为新的Athena表。aws-sdk-pandas库提供了强大的功能来实现这一需求，但使用时需要注意正确的API选择。

常见误区

许多开发者会尝试使用wr.athena.read_sql_query函数并设置ctas_approach=True来创建CTAS(创建表作为查询)表，例如：

query = """
create table database_name.table_name as
select * from source_database_name.source_table_name
"""
wr.athena.read_sql_query(
    sql=query,
    database='database',
    workgroup='workgroup',
    ctas_approach=True,
    s3_output='database_path'
)

这种做法会导致InvalidRequestException: An Error occurred when calling the StartQueryExecution operation: mismatch input create错误，因为read_sql_query的设计目的不是用于创建表。

正确解决方案

aws-sdk-pandas提供了专门的API来处理CTAS表创建需求：

如果只需要查询数据：使用read_sql_query并只提供SELECT语句
如果需要创建表：使用专用的create_ctas_table函数

创建CTAS表的正确方式

import awswrangler as wr

wr.athena.create_ctas_table(
    sql="select * from source_database_name.source_table_name",
    database="target_database",
    ctas_table="new_table_name",
    storage_format="parquet",  # 推荐使用列式存储格式
    write_compression="snappy",
    partitioning_info=None,    # 可选分区信息
    workgroup="your_workgroup",
    s3_output="s3://your-bucket/path/"
)