AWS SDK for pandas中Redshift身份列数据加载问题解析

2025-06-16 20:39:28作者：胡唯隽

pandas on AWS - Easy integration with Athena, Glue, Redshift, Timestream, Neptune, OpenSearch, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer and S3 (Parquet, CSV, JSON and EXCEL).

项目地址：https://gitcode.com/gh_mirrors/aw/aws-sdk-pandas

在使用AWS SDK for pandas进行数据工程处理时，许多开发者会遇到将数据加载到Redshift表时身份列(Identity Column)的处理问题。本文将深入探讨这一技术细节，帮助开发者理解问题本质并提供解决方案。

问题背景

Redshift作为AWS提供的数据仓库服务，支持身份列(Identity Column)功能，这是一种自动递增的列类型，常用于生成主键。当使用AWS SDK for pandas的copy_from_files方法将Parquet文件数据加载到含有身份列的Redshift表时，部分开发者会遇到"NOT NULL column without DEFAULT must be included in column list"的错误提示。

技术原理分析

身份列在Redshift中的实现方式与常规列不同。它有以下特点：

自动生成值，通常用于主键
不允许直接插入值
必须显式指定或完全忽略

copy_from_files方法底层使用Redshift的COPY命令，该命令对列映射有严格要求。当目标表包含身份列而源数据不包含对应列时，需要特殊处理。

验证与解决方案

经过AWS SDK for pandas维护团队的验证测试，确认最新版本(3.8.0)已能正确处理这种情况。以下是正确使用方式的代码示例：

# 创建包含身份列的Redshift表
with redshift_con.cursor() as cursor:
    cursor.execute(
        f"""
        CREATE TABLE {schema}.{redshift_table} (
            id BIGINT IDENTITY(1, 1),
            foo VARCHAR(100),
            PRIMARY KEY(id)
        );
        """
    )

# 使用copy_from_files加载数据
wr.redshift.copy_from_files(
    path=path,
    path_suffix=".parquet",
    con=redshift_con,
    table=redshift_table,
    data_format="parquet",
    schema=schema,
    iam_role=databases_parameters["redshift"]["role"],
)