AWS SDK for Pandas中PostgreSQL upsert操作的双引号列名问题解析

2025-06-16 06:59:16作者：龚格成

pandas on AWS - Easy integration with Athena, Glue, Redshift, Timestream, Neptune, OpenSearch, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer and S3 (Parquet, CSV, JSON and EXCEL).

项目地址：https://gitcode.com/gh_mirrors/aw/aws-sdk-pandas

问题背景

在使用AWS SDK for Pandas（awswrangler）的wr.postgresql.to_sql方法时，开发人员遇到了一个关于列名大小写敏感性的问题。该问题出现在从版本3.2.1升级到3.9.0后，当尝试对PostgreSQL数据库执行upsert操作时。

问题现象

在PostgreSQL数据库中，开发人员使用了驼峰命名法（camelCase）作为列名规范。在升级前，以下代码能够正常工作：

wr.postgresql.to_sql(
    df=df,
    table="SpTargetingKewordsOnlyReport",
    schema='public',
    con=conn,
    mode='upsert',
    dtype=dtypes,
    use_column_names=True,
    index=False,
    upsert_conflict_columns=['"date"', '"userId"', '"profileId"', '"keywordId"']
)

升级后，这段代码开始报错，提示"identifier must contain only alphanumeric characters, spaces, underscores, or hyphens"。

问题分析

PostgreSQL对标识符（如表名、列名）的处理有以下特点：

大小写敏感性：PostgreSQL默认将未加引号的标识符转换为小写
引号的作用：使用双引号可以保留标识符的大小写形式
命名规范：通常建议使用下划线命名法（snake_case）以避免大小写问题

在awswrangler的早期版本中，库内部可能对双引号列名有特殊处理，但在升级到3.9.0后，这种处理方式可能发生了变化，导致双引号不再被正确识别。

解决方案探索

开发人员尝试了以下解决方法：

移除双引号：将upsert_conflict_columns参数中的双引号去除，改为：
```
upsert_conflict_columns=['date', 'userId', 'profileId', 'keywordId']
```
但这导致了新的错误，提示"column 'userid' does not exist"，因为PostgreSQL将未加引号的标识符转换为小写后，与实际的驼峰式列名不匹配。
环境重置：通过重新安装软件包、重建数据库和容器，问题最终得到解决。这表明问题可能与环境配置或缓存有关。