Containerd CRI插件中的并发映射访问崩溃问题分析

2025-05-12 21:46:16作者：何将鹤

问题概述

在Containerd容器运行时1.7.24版本中，CRI插件在处理端口转发时出现了一个严重的崩溃问题。崩溃的根本原因是由于在日志记录过程中对HTTP流处理程序连接对象进行了不安全的并发映射访问操作，导致Go运行时抛出"fatal error: concurrent map iteration and map write"错误。

技术背景

这个问题发生在Containerd的CRI插件端口转发功能模块中。当处理HTTP流连接时，代码尝试通过klog.ErrorS记录错误日志，其中包含了对连接对象(h.conn)的格式化操作。由于连接对象内部可能包含映射(Map)类型字段，而日志记录时的格式化操作会尝试遍历这些映射，与此同时可能有其他goroutine正在修改这些映射，从而引发了并发访问冲突。

问题根源分析

深入分析崩溃堆栈可以发现几个关键点：

崩溃发生在reflect.mapiternext函数中，这是Go运行时处理映射迭代的内部函数
调用链从fmt.Sprintf开始，经过klog的格式化处理，最终到达端口转发处理逻辑
问题代码位于httpstream.go文件的282行，这里直接将连接对象传递给klog.ErrorS进行日志记录

值得注意的是，项目中的其他代码在处理相同连接对象时都使用了"%p"格式化指令来避免对连接对象内容的深度格式化，而问题代码路径则没有采取这种预防措施。

影响范围

这个问题主要影响：

Containerd 1.6.x系列版本
Containerd 1.7.x系列版本(至少到1.7.24)

Containerd 2.0及以上版本由于CRI插件的重构，使用了不同的端口转发实现，可能不受此问题影响。此外，新版本的klog模块已经改用JSON编码器作为非默认类型的格式化器，这在一定程度上降低了此类问题的发生概率。

解决方案

社区已经提出了两种解决方案：

短期解决方案：在调用klog.ErrorS之前，先使用fmt.Sprintf("%p", h.conn)对连接对象进行格式化，避免klog对连接对象进行深度格式化操作
长期解决方案：升级klog模块版本，利用其改进的JSON编码器来处理非默认类型的日志记录

技术验证

为了验证这个问题的存在和解决方案的有效性，可以通过以下Go代码模拟类似场景：

package main

import (
	"fmt"
	"sync"
)

type Conn struct {
	data map[string]interface{}
}

func main() {
	c := &Conn{
		data: make(map[string]interface{}),
	}
	
	var wg sync.WaitGroup
	wg.Add(2)
	
	// 模拟并发映射写入
	go func() {
		defer wg.Done()
		for i := 0; i < 1000; i++ {
			c.data[fmt.Sprintf("key%d", i)] = i
		}
	}()
	
	// 模拟日志格式化操作
	go func() {
		defer wg.Done()
		for i := 0; i < 1000; i++ {
			// 问题代码：直接格式化包含映射的对象
			_ = fmt.Sprintf("%+v", c)
			
			// 修复代码：使用指针格式化
			// _ = fmt.Sprintf("%p", c)
		}
	}()
	
	wg.Wait()
}