Docker 在128核ARM服务器上统计信息获取失败问题分析

2025-04-29 13:15:01作者：廉彬冶Miranda

问题背景

在运行Docker 28.0.4版本的128核ARM服务器上，用户发现docker stats命令无法正确显示容器资源使用情况，所有统计值均为零。系统日志中频繁出现"error scanning '/proc/stat' file: bufio.Scanner: token too long"的错误信息。

技术分析

问题根源

该问题的根本原因在于Docker在读取系统/proc/stat文件时使用了Go语言的bufio.Scanner，而默认缓冲区大小(64KB)不足以处理128核系统中的intr行数据。在Linux系统中，/proc/stat文件包含系统CPU和进程统计信息，其中intr行记录了中断计数，随着CPU核心数增加，该行会变得异常冗长。

深入解析

在典型4核系统中，/proc/stat文件内容相对简洁。但在128核系统中，intr行可能包含数千个中断计数项，导致单行长度远超64KB限制。Docker的统计收集功能需要解析/proc/stat中的CPU使用数据，但由于缓冲区限制，整个读取过程失败，最终导致统计信息无法正确收集。

解决方案

临时解决方案

对于急需解决问题的用户，可以考虑以下临时方案：

降低系统日志级别，避免日志文件膨胀
使用替代监控工具如cAdvisor或Prometheus

长期修复

Docker社区提出了几种技术解决方案：

优化读取策略：仅关注以"cpu"开头的行，忽略后续内容
使用更灵活的读取器：替换bufio.Scanner为bufio.Reader，逐行处理且不受缓冲区限制
自定义分割函数：为扫描器设置特定分割逻辑，仅提取所需数据

技术实现建议

对于开发者而言，最优解决方案应兼顾性能和资源效率：

// 使用Reader替代Scanner
reader := bufio.NewReader(f)
for {
    line, err := reader.ReadString('\n')
    if err != nil {
        break
    }
    if strings.HasPrefix(line, "cpu") {
        // 处理CPU数据
    }
}

这种方法避免了不必要的大内存分配，同时确保能正确处理超长行数据。