首页
/ Containerd CRI插件中的并发映射访问崩溃问题分析

Containerd CRI插件中的并发映射访问崩溃问题分析

2025-05-12 20:27:57作者:何将鹤

问题概述

在Containerd容器运行时1.7.24版本中,CRI插件在处理端口转发时出现了一个严重的崩溃问题。崩溃的根本原因是由于在日志记录过程中对HTTP流处理程序连接对象进行了不安全的并发映射访问操作,导致Go运行时抛出"fatal error: concurrent map iteration and map write"错误。

技术背景

这个问题发生在Containerd的CRI插件端口转发功能模块中。当处理HTTP流连接时,代码尝试通过klog.ErrorS记录错误日志,其中包含了对连接对象(h.conn)的格式化操作。由于连接对象内部可能包含映射(Map)类型字段,而日志记录时的格式化操作会尝试遍历这些映射,与此同时可能有其他goroutine正在修改这些映射,从而引发了并发访问冲突。

问题根源分析

深入分析崩溃堆栈可以发现几个关键点:

  1. 崩溃发生在reflect.mapiternext函数中,这是Go运行时处理映射迭代的内部函数
  2. 调用链从fmt.Sprintf开始,经过klog的格式化处理,最终到达端口转发处理逻辑
  3. 问题代码位于httpstream.go文件的282行,这里直接将连接对象传递给klog.ErrorS进行日志记录

值得注意的是,项目中的其他代码在处理相同连接对象时都使用了"%p"格式化指令来避免对连接对象内容的深度格式化,而问题代码路径则没有采取这种预防措施。

影响范围

这个问题主要影响:

  1. Containerd 1.6.x系列版本
  2. Containerd 1.7.x系列版本(至少到1.7.24)

Containerd 2.0及以上版本由于CRI插件的重构,使用了不同的端口转发实现,可能不受此问题影响。此外,新版本的klog模块已经改用JSON编码器作为非默认类型的格式化器,这在一定程度上降低了此类问题的发生概率。

解决方案

社区已经提出了两种解决方案:

  1. 短期解决方案:在调用klog.ErrorS之前,先使用fmt.Sprintf("%p", h.conn)对连接对象进行格式化,避免klog对连接对象进行深度格式化操作
  2. 长期解决方案:升级klog模块版本,利用其改进的JSON编码器来处理非默认类型的日志记录

技术验证

为了验证这个问题的存在和解决方案的有效性,可以通过以下Go代码模拟类似场景:

package main

import (
	"fmt"
	"sync"
)

type Conn struct {
	data map[string]interface{}
}

func main() {
	c := &Conn{
		data: make(map[string]interface{}),
	}
	
	var wg sync.WaitGroup
	wg.Add(2)
	
	// 模拟并发映射写入
	go func() {
		defer wg.Done()
		for i := 0; i < 1000; i++ {
			c.data[fmt.Sprintf("key%d", i)] = i
		}
	}()
	
	// 模拟日志格式化操作
	go func() {
		defer wg.Done()
		for i := 0; i < 1000; i++ {
			// 问题代码:直接格式化包含映射的对象
			_ = fmt.Sprintf("%+v", c)
			
			// 修复代码:使用指针格式化
			// _ = fmt.Sprintf("%p", c)
		}
	}()
	
	wg.Wait()
}

这个示例程序可以可靠地重现类似的并发映射访问崩溃,并验证使用指针格式化可以避免这个问题。

最佳实践建议

基于这个问题的分析,我们建议:

  1. 在记录包含复杂结构的对象时,优先使用指针格式化(%p)而非值格式化(%v或%+v)
  2. 对于可能包含映射字段的接口类型,要特别小心并发访问问题
  3. 定期更新依赖的日志库版本,以获取更安全的格式化实现
  4. 在接口设计中,考虑为日志记录提供专用的String()方法,避免自动格式化带来的不确定性

总结

Containerd CRI插件中的这个崩溃问题展示了在并发环境下处理复杂对象日志记录时的潜在风险。通过深入分析问题根源和验证解决方案,我们不仅解决了当前问题,也为类似场景提供了通用的解决方案和最佳实践。这种对并发安全和日志记录处理的深入理解,对于开发高可靠性的容器运行时系统至关重要。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
22
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
165
2.05 K
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
954
563
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
60
16
apintoapinto
基于golang开发的网关。具有各种插件,可以自行扩展,即插即用。此外,它可以快速帮助企业管理API服务,提高API服务的稳定性和安全性。
Go
22
0
giteagitea
喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
17
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
408
387
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Python
77
71
rainbondrainbond
无需学习 Kubernetes 的容器平台,在 Kubernetes 上构建、部署、组装和管理应用,无需 K8s 专业知识,全流程图形化管理
Go
14
1