Docker在128核ARM服务器上无法获取容器统计信息的分析与解决

2025-04-30 01:12:37作者：董宙帆

问题背景

在运行Docker 28.0.4版本的高性能ARM服务器上，管理员发现无法正常获取容器统计信息。当执行docker stats命令时，所有统计值都显示为零，同时系统日志中不断出现"error scanning '/proc/stat' file: bufio.Scanner: token too long"的错误信息。这个问题特别出现在配备128个CPU核心的ARM架构服务器上。

问题分析

深入分析这个问题，我们发现其根源在于Linux内核的/proc/stat文件处理方式。在Linux系统中，/proc/stat文件包含了系统CPU和进程活动的统计信息。随着CPU核心数量的增加，特别是像128核这样的高核心数系统，/proc/stat文件中的"intr"（中断）行会变得异常长。

Docker在收集容器统计信息时，使用Go语言的bufio.Scanner来逐行读取/proc/stat文件。默认情况下，bufio.Scanner使用64KB的缓冲区，当遇到超过这个长度的行时就会报错。在128核系统中，"intr"行的长度很容易超过这个限制，导致扫描器失败。

技术细节

在标准配置的服务器上，/proc/stat文件通常包含以下内容：

汇总的CPU使用情况行
每个CPU核心的单独统计行
中断统计行("intr")
上下文切换统计
进程统计等信息

其中"intr"行会为每个可能的中断源保留一个计数器，在128核系统中，这一行会变得非常长。Docker的统计收集代码原本设计为读取整个文件，但实际上它只需要关注以"cpu"开头的行来获取CPU使用情况。

解决方案

经过技术分析，我们确定了几个可行的解决方案：

优化扫描策略：修改代码只关注以"cpu"开头的行，忽略其他内容。这样即使"intr"行很长也不会影响功能。
使用更合适的读取方式：将bufio.Scanner替换为bufio.Reader的ReadLine方法，这种方法没有行长度限制，可以更灵活地处理大文件。
提前终止读取：在读取到足够的"cpu"行后立即停止读取文件，避免处理不必要的内容。