3个步骤解决Linux内核崩溃：crash调试工具从入门到精通

2026-03-12 03:30:56作者：申梦珏Efrain

定位内核崩溃：从现象到本质的跨越

当服务器屏幕突然显示内核恐慌信息，或远程连接中断且无法恢复时，系统管理员面临的首要挑战是确定故障根源。内核崩溃通常表现为以下特征：系统无响应、控制台输出Kernel panic信息、应用程序突然终止且无法重启。这些问题背后可能隐藏着内存泄漏、空指针引用、死锁等严重内核缺陷。

传统排查方法如查看/var/log/messages只能获取有限信息，而crash工具通过分析内核转储文件，能够提供崩溃瞬间的完整内存快照，包括进程状态、堆栈跟踪和内存分配情况。根据Linux内核社区统计，约85%的内核崩溃问题可通过crash工具定位根本原因。

解析crash工具：内核调试的技术原理

理解内核转储机制

内核转储（kdump）是crash工具分析的基础，其工作流程包含三个关键阶段：

内存预留：系统启动时通过crashkernel=size@offset参数预留专用内存区域，用于崩溃时内核运行
崩溃捕获：发生内核恐慌时，kexec机制启动预留内存中的特殊内核
数据转储：崩溃内核将物理内存内容写入转储文件（默认路径/var/crash）

流程图

关键点提示：不同内核版本对crashkernel参数的支持存在差异。内核4.15+支持crashkernel=auto自动分配，而早期版本需要手动指定具体数值，如crashkernel=512M@16M。

crash工具的核心架构

crash工具采用模块化设计，主要由以下组件构成：

符号解析器：解析vmlinux文件中的调试符号
内存访问层：提供转储文件的内存读写接口
命令处理器：实现调试命令和扩展宏
数据结构解析器：理解内核数据结构布局

与gdb相比，crash工具针对内核调试进行了深度优化，提供专门的内核数据结构查看命令和宏定义，如struct命令可直接解析task_struct等复杂结构。

实战crash工具：从安装到高级调试

环境准备与配置

跨发行版安装指南：

# Debian/Ubuntu系统
sudo apt update && sudo apt install crash kdump-tools

# RHEL/CentOS 7系统
sudo yum install crash kexec-tools

# RHEL/CentOS 8及Fedora系统
sudo dnf install crash kexec-tools

# SUSE系统
sudo zypper install crash kdump

配置kdump服务：

# 编辑grub配置（不同发行版路径可能不同）
# RHEL/CentOS
sudo vim /etc/default/grub
# 添加内核参数
GRUB_CMDLINE_LINUX="crashkernel=auto rhgb quiet"

# 更新grub配置
# BIOS系统
sudo grub2-mkconfig -o /boot/grub2/grub.cfg
# UEFI系统
sudo grub2-mkconfig -o /boot/efi/EFI/redhat/grub.cfg

# 启动并设置开机自启
sudo systemctl enable --now kdump.service

# 验证配置
sudo systemctl status kdump.service

关键点提示：确保/var/crash分区有足够空间，建议至少保留系统内存大小的空间用于存储转储文件。

核心调试命令实战

加载转储文件：

# 基本语法：crash <内核镜像> <转储文件>
crash /usr/lib/debug/lib/modules/$(uname -r)/vmlinux /var/crash/2023-11-15-10:30/vmcore

系统状态概览：

crash> sys  # 显示系统基本信息
      KERNEL: /usr/lib/debug/lib/modules/5.14.0-1.el8.x86_64/vmlinux
    DUMPFILE: /var/crash/2023-11-15-10:30/vmcore  [FULL DUMP]
        CPUS: 4
        DATE: Wed Nov 15 10:29:45 2023
      UPTIME: 02:18:36
LOAD AVERAGE: 1.25, 1.10, 0.95
       TASKS: 286
    NODENAME: server01
     RELEASE: 5.14.0-1.el8.x86_64
     VERSION: #1 SMP Thu Oct 13 15:30:45 UTC 2023
     MACHINE: x86_64  (3200 MHz)
      MEMORY: 15.7 GB
       PANIC: "BUG: unable to handle kernel NULL pointer dereference at 0000000000000010"
         PID: 2489
     COMMAND: "nfsd"
        TASK: ffff888076543210  (nid: 0, pid: 2489)
         CPU: 1
       STATE: TASK_RUNNING (PANIC)

进程分析：

crash> ps -l 2489  # 查看崩溃进程详细信息
   PID    PPID  CPU       TASK        ST  %MEM     VSZ     RSS  COMM
  2489      12   1  ffff888076543210  RU   0.3  102400   51200  nfsd

crash> p task_struct 0xffff888076543210  # 查看进程task_struct结构
struct task_struct {
  volatile long state;        /* 0x0 */
  void *stack;                /* 0x8 */
  atomic_t usage;             /* 0x10 */
  unsigned int flags;         /* 0x14 */
  unsigned int ptrace;        /* 0x18 */
  ...
  pid_t pid;                  /* 0x2e0 */
  pid_t tgid;                 /* 0x2e4 */
  ...
}

堆栈追踪：

crash> bt 2489  # 查看崩溃进程堆栈
PID: 2489   TASK: ffff888076543210  CPU: 1   COMMAND: "nfsd"
 #0 [ffffc90000a37c00] die at ffffffff8108a723
 #1 [ffffc90000a37c40] page_fault_oops at ffffffff8108c985
 #2 [ffffc90000a37d00] __do_page_fault at ffffffff8108d1a2
 #3 [ffffc90000a37d60] do_page_fault at ffffffff8108d4b0
 #4 [ffffc90000a37d90] page_fault at ffffffff81f01085
    [exception RIP: nfsd_fill_super+0x1f3]
    RIP: ffffffffa03457c3  RSP: ffffc90000a37e48  RFLAGS: 00010246
    RAX: 0000000000000000  RBX: ffff888076543210  RCX: 0000000000000000
    RDX: 0000000000000000  RSI: ffff888078901234  RDI: 0000000000000000
    RBP: ffffc90000a37e80   R8: 0000000000000000   R9: 0000000000000000
   R10: 0000000000000000  R11: 0000000000000000  R12: ffff888076543210
   R13: 0000000000000000  R14: ffff888078901234  R15: 0000000000000000
    ORIG_RAX: ffffffffffffffff  CS: 0010  SS: 0018
#5 [ffffc90000a37e88] nfsd_get_super at ffffffffa0345a15 [nfsd]
#6 [ffffc90000a37ea8] get_super at ffffffff8122d3c5
#7 [ffffc90000a37ec0] vfs_kern_mount at ffffffff8122f05d
#8 [ffffc90000a37f10] do_mount at ffffffff81231e45
#9 [ffffc90000a37f70] sys_mount at ffffffff812328b2
#10 [ffffc90000a37fa0] entry_SYSCALL_64_after_hwframe at ffffffff81f02089

案例解析：常见内核崩溃问题诊断

案例一：空指针解引用

症状：内核日志显示BUG: unable to handle kernel NULL pointer dereference

分析步骤：

使用bt命令获取堆栈跟踪，确定崩溃发生在nfsd_fill_super+0x1f3
反汇编该函数定位空指针访问位置：
```
crash> dis -r nfsd_fill_super+0x1f3
```
查看相关寄存器状态，发现RDI寄存器为0（空指针）
结合内核源码分析为何指针未正确初始化

解决方案：修复nfsd模块中未检查空指针的代码，添加必要的错误处理

案例二：内存泄漏导致OOM

症状：系统运行数天后因内存耗尽触发OOM killer

分析步骤：

对比不同时间点的转储文件：

crash> slab -s  # 查看slab缓存使用情况
crash> kmem -i  # 显示内存分配统计

发现dentry缓存异常增长，怀疑目录项缓存未正确释放
使用p命令检查dentry结构的引用计数：
```
crash> p dentry 0xffff888078901234
```

解决方案：修复文件系统模块中dentry引用计数管理不当的问题

进阶拓展：从工具使用到内核理解

常见误区解析

误区：认为crashkernel=auto适用于所有场景纠正：在内存小于2GB的系统上，auto可能无法分配足够内存，需手动指定
误区：kdump服务启动即表示配置成功纠正：需通过echo c > /proc/sysrq-trigger测试生成转储文件
误区：分析转储只需关注崩溃进程纠正：需结合系统整体状态，包括中断控制器、内存分配等全局信息

工具	优势	劣势	适用场景
crash	专业内核调试，支持复杂数据结构解析	需调试符号，学习曲线陡	内核崩溃分析
gdb	通用调试器，熟悉度高	缺乏内核专用命令	内核模块开发调试
kgdb	实时调试，支持断点	需要串口或网络连接	内核开发阶段
ksymoops	轻量级，无需调试符号	功能有限，信息简略	初步故障定位

高级调试技巧

自定义宏定义：创建~/.crashrc文件定义常用命令组合：

# 显示进程打开的文件
define pfiles
  foreach $file in $arg0->files->fdt->fd
    if $file
      printf "FD: %d, Path: %s\n", $file->fd, d_path($file->f_path)
    end
  end
end

内存数据结构遍历：

# 遍历进程的文件描述符表
crash> foreach task_struct p { if p->pid == 2489; then p p->files; fi; }

通过掌握crash工具，不仅能解决实际工作中的内核问题，更能深入理解Linux内核的运行机制。建议结合内核源码阅读，重点关注内存管理、进程调度等核心子系统，这将极大提升问题定位能力。持续学习内核社区的新特性和调试技术，是成为高级Linux系统工程师的必经之路。

linux

Linux kernel source tree

项目地址：https://gitcode.com/GitHub_Trending/li/linux

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

845

6.18 K

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。