Apache Fury项目中WeakHashMap并发访问导致的线程挂起问题深度解析
2025-06-25 23:54:10作者:吴年前Myrtle
背景概述
在Apache Fury(一个高性能序列化框架)的开发过程中,开发团队发现了一个涉及Java集合框架的严重并发问题。当框架在生成序列化器代码时,特定场景下会出现线程永久挂起的现象。通过分析线程堆栈,发现问题根源在于WeakHashMap.get()方法的并发访问冲突。
问题本质
WeakHashMap作为Java集合框架中一个特殊的Map实现,其键使用弱引用(WeakReference)实现。与常规HashMap不同,JDK 8之后HashMap通过树化改造和新的扩容算法解决了经典的并发问题,但WeakHashMap的核心实现却保持了旧有的链表结构设计。
技术原理分析
WeakHashMap的底层实现机制
在JDK 11的实现中,WeakHashMap仍然采用数组+链表的经典结构。其扩容时的关键方法transfer()保持着与JDK 7时代HashMap相似的实现:
private void transfer(Entry<K,V>[] src, Entry<K,V>[] dest) {
for (int j = 0; j < src.length; ++j) {
Entry<K,V> e = src[j];
src[j] = null;
while (e != null) {
Entry<K,V> next = e.next; // 关键点1:暂存next引用
int i = indexFor(e.hash, dest.length);
e.next = dest[i]; // 关键点2:建立新链接
dest[i] = e; // 关键点3:更新桶头节点
e = next; // 关键点4:处理下一个节点
}
}
}
并发场景下的问题复现
当多个线程同时操作WeakHashMap时,典型的死锁场景如下:
- 初始状态:某桶中存在链表 A→B→null
- 线程1执行扩容:
- 读取e=A,next=B后被挂起
- 线程2完成完整扩容:
- 将链表反转为 B→A→null
- 线程1恢复执行:
- 将A插入新桶(A.next=null)
- 接着处理B时,由于线程2的修改,B.next实际指向A
- 最终形成环形链表 B→A→B...
此时任何对该桶的查询操作都会陷入无限循环,导致线程永久挂起。
问题影响范围
该问题具有以下特征:
- 影响所有JDK版本(包括最新的JDK 11)
- 仅在并发修改时触发(读-写并发或写-写并发)
- 在Apache Fury中表现为序列化代码生成时的线程阻塞
解决方案建议
短期解决方案
- 使用同步包装:
Map<K,V> safeMap = Collections.synchronizedMap(new WeakHashMap<>());
- 改用并发容器:
Map<K,V> safeMap = new ConcurrentHashMap<>();
长期架构建议
- 审查所有使用WeakHashMap的场景
- 建立并发使用规范:
- 明确集合的线程安全策略
- 对共享集合强制使用线程安全实现
- 考虑替代方案:
- 对于缓存场景,可使用Guava Cache等专业实现
- 对于弱引用管理,可考虑WeakReference与ConcurrentHashMap的组合
经验总结
这个案例给我们带来三点重要启示:
-
API契约的重要性:虽然
WeakHashMap不是线程安全的,但它的行为文档中并未明确说明可能产生死循环这种极端情况 -
集合选择的谨慎性:在性能敏感的基础组件中,集合类型的选择需要同时考虑功能需求和并发特性
-
测试的全面性:并发问题往往在特定条件下才会显现,需要加强并发场景的专项测试
通过这个问题的分析,我们不仅解决了Apache Fury的具体缺陷,更重要的是建立了对Java集合框架更深层次的理解,为后续开发高质量的基础组件积累了宝贵经验。
登录后查看全文
热门项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0220
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0140
uni-appA cross-platform framework using Vue.jsJavaScript09
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03
热门内容推荐
最新内容推荐
项目优选
收起
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
471
466
deepin linux kernel
C
32
16
暂无描述
Dockerfile
780
5.08 K
Ascend Extension for PyTorch
Python
759
969
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
700
1.4 K
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
2.1 K
220
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
880
2.02 K
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.04 K
272
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
C
461
5.45 K
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.1 K
1.15 K