YugabyteDB YSQL中INSERT ON CONFLICT批处理导致RETURNING返回数据异常问题分析

2025-05-25 19:38:20作者：谭伦延

在YugabyteDB的YSQL功能中，当启用INSERT ON CONFLICT的批量读取功能时，如果RETURNING子句返回的是非指针类型(如text类型)，会出现内存无效导致返回垃圾数据的问题。本文将深入分析这一问题的技术背景、原因及解决方案。

问题现象

当用户执行如下SQL语句时：

SET yb_insert_on_conflict_read_batch_size = 1024;
CREATE TABLE texts (i int, t text, UNIQUE (t));
INSERT INTO texts VALUES (1, 'hello world') ON CONFLICT DO NOTHING RETURNING *;

返回结果中的文本字段t显示为乱码，例如：

 i |                                                                                                                            t                                                     
                                                                        
---+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------
 1 | \x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\
x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F\x7F

值得注意的是，虽然返回数据显示异常，但实际插入数据库的数据是正确的。

技术背景

YugabyteDB为了提高INSERT ON CONFLICT操作的性能，引入了批量读取功能。这一功能通过yb_insert_on_conflict_read_batch_size参数控制，允许系统批量处理冲突检测，减少网络往返次数。

在PostgreSQL及其衍生系统中，RETURNING子句用于返回被修改行的数据。对于复杂数据类型如text，系统需要维护对这些数据的引用，确保在返回给客户端时数据仍然有效。

问题根源

通过分析源代码，发现问题出在nodeModifyTable.c文件中的YbFlushSlotsFromBatch函数。该函数在处理批量操作时，过早地释放了元组表槽(TupleTableSlot)，导致RETURNING子句引用的内存区域被标记为无效。

具体来说，函数中调用了ExecDropSingleTupleTableSlot释放了slot和planSlot，但这些槽可能仍被后续的RETURNING处理所引用。对于简单类型如整数，数据是直接内联存储的，不受此影响；但对于text等需要间接引用的类型，就会导致访问已释放内存的问题。

临时解决方案

通过注释掉释放TupleTableSlot的代码可以临时解决此问题：

#if 0
ExecDropSingleTupleTableSlot(slot);
ExecDropSingleTupleTableSlot(planSlot);
#endif

有趣的是，这一修改并没有引发预期的元组表槽引用泄漏警告，这表明系统对资源管理的预期与实际行为存在差异。

影响范围

此问题主要影响以下场景：

启用了yb_insert_on_conflict_read_batch_size参数
使用INSERT ON CONFLICT语法
RETURNING子句返回非内联数据类型(text等)

长期解决方案建议

完整的修复方案应该考虑以下几点：

确保RETURNING处理完成前不释放相关资源
维护正确的资源生命周期管理
添加适当的测试用例覆盖此类场景
考虑批量操作与RETURNING子句交互的其他边界情况

总结

这一问题揭示了在优化批量操作时需要特别注意资源生命周期管理的重要性。数据库系统在处理复杂查询时，必须确保数据引用的有效性，特别是在涉及内存管理和查询执行计划优化的场景中。开发者在实现性能优化功能时，应当全面考虑各种查询子句的交互影响，确保功能的正确性和稳定性。

登录后查看全文

YugabyteDB YSQL中INSERT ON CONFLICT批处理导致RETURNING返回数据异常问题分析

问题现象

技术背景

问题根源

临时解决方案

影响范围

长期解决方案建议

总结

热门内容推荐

最新内容推荐

项目优选

YugabyteDB YSQL中INSERT ON CONFLICT批处理导致RETURNING返回数据异常问题分析

问题现象

技术背景

问题根源

临时解决方案

影响范围

长期解决方案建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选