Peewee中使用get_or_create方法时遇到的整数溢出问题分析

2025-05-20 02:00:14作者：昌雅子Ethen

问题背景

在使用Peewee ORM框架进行数据库操作时，开发者遇到了一个看似奇怪的错误。当尝试使用get_or_create方法创建或获取记录时，系统抛出了peewee.IntegrityError异常，提示"Duplicate entry '2147483647'"的错误。然而奇怪的是，实际传入的video_id值为2397088498，与错误信息中的2147483647并不匹配。

问题本质

经过深入分析，这个问题实际上是由于整数类型溢出导致的。具体表现为：

数据库表中定义的video_id字段为INT类型（32位有符号整数）
而实际传入的video_id值2397088498超过了INT类型的最大值2147483647
在数据传递过程中，这个64位整数被截断为32位，导致数值溢出

技术细节解析

数据库类型限制

MySQL中INT类型的存储范围为-2147483648到2147483647。当尝试存储大于2147483647的值时，会发生以下情况之一：

在严格模式下，MySQL会直接拒绝操作并报错
在非严格模式下，MySQL会进行隐式转换，将大数值截断为最大值2147483647

Peewee的工作机制

Peewee的get_or_create方法实际上执行了两个操作：

首先尝试查询是否存在匹配记录（使用WHERE条件）
如果不存在，则尝试创建新记录

在查询阶段，由于参数值尚未被插入数据库，所以不会触发溢出错误。但在创建阶段，当数值被实际插入到INT字段时，就会发生溢出问题。

解决方案

针对这个问题，有以下几种解决方案：

最佳实践：使用正确的数据类型

将数据库表中的video_id字段类型从INT改为BIGINT，这样可以存储更大的数值范围：

ALTER TABLE found_video_cover_image_ocr_count MODIFY COLUMN video_id BIGINT NOT NULL;

对应的Peewee模型也应相应修改：

video_id = BigIntegerField(unique=True)

其他可选方案

应用层验证：在业务逻辑中添加数值范围检查，确保不传入超过INT最大值的ID
使用字符串存储：如果ID不需要进行数值运算，可以考虑使用CHAR/VARCHAR类型存储
错误处理：捕获IntegrityError异常并进行特殊处理

经验总结

在设计数据库时，应该充分考虑字段的取值范围，特别是ID类字段
在使用ORM框架时，要注意数据库实际类型与模型定义的一致性
对于可能增长的大数值ID，建议从一开始就使用BIGINT/BigIntegerField
在遇到类似"莫名其妙"的数据不一致问题时，数据类型匹配是首要排查点

扩展思考

这个问题也提醒我们，在分布式系统或微服务架构中，ID生成策略的选择非常重要。使用Snowflake等算法生成的ID通常都是64位整数，如果下游系统使用32位存储，就会遇到类似的溢出问题。因此在系统设计时，应该统一ID的数据类型规范，避免这类隐性问题。

peewee

项目地址：https://gitcode.com/gh_mirrors/pe/peewee

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system