Parallel.map在收集进程时偶发两分钟卡顿问题分析

2025-06-15 07:27:21作者：钟日瑜

问题现象

在使用Ruby的Parallel.map方法进行多进程并行计算时，发现了一个奇怪的现象：某些情况下，当所有子进程已经完成计算任务并退出后，主进程会在收集结果阶段出现约2分钟的卡顿。这种卡顿并非每次都会发生，但一旦出现就会显著影响整体性能。

初步排查

通过添加调试日志，可以清晰地观察到卡顿发生在子进程完成计算之后，主进程收集结果之前。具体表现为：

所有子进程都打印了完成标记("b")
主进程迟迟不打印后续标记("c")
卡顿时间大约持续2分钟

深入调查

为了定位问题根源，我们进行了以下测试：

替换线程模式：尝试使用in_threads代替in_processes，但由于ActiveRecord连接池问题无法实施
简化测试：改用.each方法忽略返回值，问题依然存在
检查数据序列化：确认返回数据量很小(数据序列化后仅59字节)，排除了大数据量传输导致的问题
绕过Parallel：直接使用Process.fork和Process.waitall重现问题，确认问题与Parallel无关

关键发现

通过对比exit!和abort的行为差异，发现了一个重要线索：

使用exit!强制退出子进程时，卡顿消失
使用abort正常退出时，卡顿重现

这表明问题可能与Ruby的进程退出机制有关，特别是at_exit回调处理。exit!会跳过at_exit回调，而abort会执行这些回调。

技术分析

虽然检查未发现显式注册的at_exit回调，但以下可能性值得考虑：

隐式回调：某些gem可能在内部注册了at_exit回调但未暴露
资源清理：数据库连接池或其他资源可能在进程退出时进行耗时清理
信号处理：进程间信号传递可能出现延迟或阻塞
系统限制：操作系统层面的进程管理可能出现问题

解决方案

目前可行的临时解决方案是在子进程中使用exit!而非默认的退出方式。虽然这不够优雅，但能有效避免卡顿问题。长期来看，需要：

深入检查所有gem的退出处理逻辑
监控系统资源使用情况
考虑使用更精细的进程管理策略

总结

这类多进程编程中的卡顿问题往往难以调试，需要系统性地排除各种可能性。通过逐步缩小问题范围，最终定位到与进程退出机制相关的根本原因。这也提醒我们在使用并行计算时，不仅要关注核心业务逻辑，还需要注意进程生命周期管理的各种细节。

parallel

Ruby: parallel processing made simple and fast

项目地址：https://gitcode.com/gh_mirrors/pa/parallel

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch