无需重启内核！Kprobes动态追踪函数调用栈实战指南

2026-02-04 04:30:41作者：幸俭卉

还在为调试Linux内核问题时频繁重启系统而烦恼？本文将带你掌握Kprobes动态追踪技术，无需重启即可实时监控函数调用栈，轻松定位内核问题。读完本文，你将学会：3步实现内核函数调用追踪、使用kprobetrace分析调用流程、实战解决死锁问题的技巧，以及如何避免常见的Kprobes使用陷阱。

Kprobes简介：内核调试的"瑞士军刀"

Kprobes是Linux内核提供的一种强大的调试工具，它允许开发者在运行中的内核函数上动态插入探针，而无需重新编译或重启内核。这种动态调试能力极大地提高了内核问题定位的效率，特别适合生产环境中的故障排查。

官方文档详细介绍了Kprobes的设计原理和使用方法：Documentation/trace/kprobes.rst。根据文档，Kprobes主要提供两种类型的探针：

kprobe：可以插入到内核函数的任意位置，用于监控函数入口、出口或中间指令
kretprobe：专门用于监控函数的返回，能够捕获函数的返回值和执行时间

工作原理：Kprobes的"三板斧"

Kprobes的工作机制可以概括为三个关键步骤，通过这三个步骤实现对内核函数的无感监控：

graph TD
    A[定义探针] --> B[注册kprobe]
    B --> C[触发断点]
    C --> D[执行pre_handler回调]
    D --> E[执行原函数指令]
    E --> F[执行post_handler回调]

断点设置：当注册一个kprobe时，Kprobes会将目标地址的指令替换为断点指令（如x86架构的int3）
回调执行：当CPU执行到断点指令时，会触发异常处理流程，Kprobes会先执行pre_handler回调函数，然后单步执行原指令，最后执行post_handler回调
恢复执行：所有回调执行完毕后，Kprobes会恢复原指令执行，整个过程对内核的正常运行影响极小

Kprobes还支持一种优化模式，称为"跳转优化"，可以显著提高探针的执行效率：Documentation/trace/kprobes.rst#kprobes_jump_optimization

快速上手：3步实现函数调用追踪

步骤1：编写Kprobe模块

以下是一个简单的Kprobe示例，用于追踪内核函数sys_open的调用：

#include <linux/kprobes.h>
#include <linux/module.h>

static struct kprobe kp = {
    .symbol_name    = "sys_open",
};

static int pre_handler(struct kprobe *p, struct pt_regs *regs)
{
    pr_info("Kprobe: sys_open called\n");
    return 0;
}

static void post_handler(struct kprobe *p, struct pt_regs *regs, unsigned long flags)
{
    pr_info("Kprobe: sys_open returned\n");
}

static int __init kprobe_init(void)
{
    kp.pre_handler = pre_handler;
    kp.post_handler = post_handler;
    
    if (register_kprobe(&kp) < 0) {
        pr_err("Failed to register kprobe\n");
        return -1;
    }
    pr_info("Kprobe registered successfully\n");
    return 0;
}

static void __exit kprobe_exit(void)
{
    unregister_kprobe(&kp);
    pr_info("Kprobe unregistered\n");
}

module_init(kprobe_init)
module_exit(kprobe_exit)
MODULE_LICENSE("GPL");

内核源码中提供了更完整的示例：samples/kprobes/kprobe_example.c 和 samples/kprobes/kretprobe_example.c。

步骤2：编译并加载模块

编写Makefile：

obj-m += kprobe_example.o
all:
    make -C /lib/modules/$(shell uname -r)/build M=$(PWD) modules
clean:
    make -C /lib/modules/$(shell uname -r)/build M=$(PWD) clean

编译并加载模块：

make
insmod kprobe_example.ko

步骤3：查看追踪结果

通过dmesg命令查看Kprobe输出：

dmesg | grep Kprobe

如果一切正常，你将看到类似以下输出：

[12345.67890] Kprobe registered successfully
[12346.12345] Kprobe: sys_open called
[12346.12347] Kprobe: sys_open returned

高级应用：kprobetrace事件追踪

除了编写内核模块，Linux内核还提供了基于ftrace的kprobetrace接口，可以更方便地追踪函数调用，而无需编写内核代码。

基本用法

创建一个kprobe事件来追踪sys_open函数：

echo 'p:myprobe sys_open' > /sys/kernel/tracing/kprobe_events
echo 1 > /sys/kernel/tracing/events/kprobes/myprobe/enable
cat /sys/kernel/tracing/trace

官方文档提供了更详细的kprobetrace使用方法：Documentation/trace/kprobetrace.rst

捕获函数参数和返回值

kprobetrace支持捕获函数参数和返回值，例如：

# 追踪sys_open的第一个参数（文件名）
echo 'p:myprobe sys_open pathname=+0($arg1):string' > /sys/kernel/tracing/kprobe_events

# 追踪sys_open的返回值
echo 'r:myretprobe sys_open ret=$retval' > /sys/kernel/tracing/kprobe_events

实战案例：追踪死锁问题

假设系统出现了死锁问题，我们可以使用Kprobes追踪互斥锁的获取和释放过程，定位问题所在。

# 追踪mutex_lock和mutex_unlock函数
echo 'p:lock_mutex mutex_lock mutex=+0($arg1)' > /sys/kernel/tracing/kprobe_events
echo 'p:unlock_mutex mutex_unlock mutex=+0($arg1)' > /sys/kernel/tracing/kprobe_events
echo 1 > /sys/kernel/tracing/events/kprobes/lock_mutex/enable
echo 1 > /sys/kernel/tracing/events/kprobes/unlock_mutex/enable

# 查看追踪结果
cat /sys/kernel/tracing/trace

通过分析互斥锁的获取和释放顺序，可以识别出可能的死锁场景。Kprobes还可以与栈追踪结合使用，帮助定位调用路径：Documentation/livepatch/reliable-stacktrace.rst

注意事项与最佳实践

Kprobes的限制

Kprobes并非万能，有一些场景下无法使用：

不能探测某些特殊函数，如动态生成的代码或某些内核关键函数
探测高频调用函数可能影响系统性能
错误的探针实现可能导致系统不稳定

内核提供了一个Kprobes黑名单机制，定义了不能探测的函数：Documentation/trace/kprobes.rst#kprobes_blacklist

性能优化

可以通过以下方式优化Kprobes的性能影响：

启用Kprobes优化（默认开启）：
```
sysctl -w debug.kprobes_optimization=1
```
避免在高频调用函数上设置探针
限制探针处理函数的执行时间

调试技巧

使用debugfs接口查看已注册的Kprobes：
```
cat /sys/kernel/debug/kprobes/list
```

动态开启/关闭Kprobes：

echo 0 > /sys/kernel/debug/kprobes/enabled  # 关闭所有Kprobes
echo 1 > /sys/kernel/debug/kprobes/enabled  # 开启所有Kprobes

使用fprobe作为替代方案，适用于需要同时探测多个函数的场景：Documentation/trace/fprobe.rst

总结

Kprobes是Linux内核调试的强大工具，它提供了无需重启内核即可动态追踪函数调用的能力。通过本文介绍的方法，你可以快速上手Kprobes，解决实际的内核调试问题。无论是开发内核模块还是排查生产环境故障，Kprobes都能成为你的得力助手。

想要深入学习Kprobes？建议阅读完整的官方文档：Documentation/trace/kprobes.rst，并研究内核源码中的示例：samples/kprobes/。

如果你觉得本文对你有帮助，欢迎点赞收藏，并关注后续的内核调试高级技巧文章！

linux

Linux kernel source tree

项目地址：https://gitcode.com/GitHub_Trending/li/linux

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理