MyBatis-Plus流式查询导致OOM问题的分析与解决

2025-05-14 07:21:04作者：卓艾滢Kingsley

问题背景

在使用MyBatis-Plus进行大数据量查询时，开发者经常会遇到内存溢出(OOM)的问题。特别是在处理千万级数据量的表时，传统的查询方式会将所有结果一次性加载到内存中，这显然是不可行的。

问题现象

当使用MyBatis-Plus的流式查询接口处理大量数据时，发现内存持续增长，最终导致OOM错误。从堆栈信息可以看到，错误发生在GC overhead limit exceeded，表明JVM花费了过多时间在垃圾回收上而无法释放足够内存。

根本原因分析

MySQL流式查询机制：MySQL JDBC驱动实现流式查询需要满足三个条件：
- 结果集类型为FORWARD_ONLY（只能向前遍历）
- 结果集并发模式为CONCUR_READ_ONLY（只读）
- fetchSize设置为Integer.MIN_VALUE（-2147483648）
配置缺失：在MyBatis-Plus中，如果没有正确配置这些参数，即使调用了流式查询方法，实际上还是会将全部结果加载到内存中。
分库分表影响：当使用ShardingJDBC等分库分表中间件时，情况会更加复杂，可能导致流式查询失效。

解决方案

方案一：全局配置

在MyBatis-Plus配置中添加以下设置：

mybatis-plus:
  configuration:
    default-fetch-size: -2147483648
    default-result-set-type: FORWARD_ONLY

方案二：Mapper XML配置

对于特定查询，可以在Mapper XML中明确指定流式查询参数：

<select id="selectLargeData" 
        resultType="com.example.Entity"
        resultOrdered="true" 
        fetchSize="-2147483648" 
        resultSetType="FORWARD_ONLY">
    SELECT * FROM large_table
</select>

方案三：注解方式

使用MyBatis的@Options注解：

@Options(resultSetType = ResultSetType.FORWARD_ONLY, fetchSize = Integer.MIN_VALUE)
@Select("SELECT * FROM large_table")
List<Entity> selectLargeData();

最佳实践建议

分页处理：对于大数据量查询，首先考虑是否真的需要全量数据，能否通过分页解决。
分批处理：如果必须处理全量数据，建议采用分批查询的方式，每次处理一定数量的数据。
资源释放：使用流式查询时，确保及时关闭ResultSet、Statement和Connection等资源。
ShardingJDBC适配：当使用分库分表中间件时，可能需要调整查询策略，如改为单表查询或限制每次查询的数据量。
内存监控：实施严格的内存监控，设置合理的JVM参数，特别是堆内存大小。

技术原理深入

MySQL的流式查询本质上是基于服务器端游标的实现。当满足流式查询条件时，JDBC驱动会逐行从网络连接中读取数据，而不是一次性加载所有结果。这种方式显著降低了内存消耗，但需要注意：

在整个结果集处理完成前，数据库连接必须保持打开状态
某些数据库操作（如更新）可能会阻塞流式查询
网络不稳定可能导致流式查询中断

MyBatis-Plus在这一过程中主要扮演配置传递者的角色，将正确的参数传递给底层的MyBatis和JDBC驱动。理解这一流程有助于开发者更好地处理大数据量查询场景。

通过正确配置和使用MyBatis-Plus的流式查询功能，开发者可以有效地处理海量数据而不会导致内存溢出，提升系统的稳定性和可靠性。

mybatis-plus

An powerful enhanced toolkit of MyBatis for simplify development

项目地址：https://gitcode.com/gh_mirrors/my/mybatis-plus

登录后查看全文