Drgn项目中task_cpu()函数在Linux 5.14内核版本中的异常行为分析

2025-07-07 13:36:50作者：范靓好Udolf

背景介绍

在Linux内核调试工具Drgn中，task_cpu()函数用于获取指定任务当前运行的CPU编号。该函数在标准内核中的实现会检查任务结构体中的CPU信息字段。然而，在特定内核版本（如RedHat/Rocky 9.3基于的5.14版本）中，该函数出现了异常行为，总是返回0值。

问题现象

用户在使用Drgn调试Rocky 9.3系统（内核版本5.14）的vmcore时发现：

调用task_cpu(per_cpu(prog['runqueues'],18).curr)始终返回0
导致stack_trace()函数获取到的总是CPU 0的调用栈

技术分析

内核变更背景

Linux内核在演进过程中对线程信息存储位置进行了优化：

早期版本：CPU编号存储在task->thread_info.cpu
新版本：改为存储在task->cpu

在标准内核演进过程中存在两个关键提交：

c65eacbe290b：引入CONFIG_THREAD_INFO_IN_TASK配置
bcf9033e5449：完全迁移到task->cpu字段

问题根源

RedHat系列发行版在5.14内核版本中出现了特殊情况：

仅部分应用了上述变更
保留了task->thread_info.cpu字段定义
但实际运行时使用的是task->cpu字段

这导致Drgn的现有逻辑（先检查thread_info.cpu）获取到了错误的值。

解决方案

通过分析内核数据结构演变过程，提出以下修复方案：

调整检查顺序：优先检查task->cpu字段
保留对旧版thread_info.cpu的兼容

修复后的验证结果：

$ python3 -m drgn -c vmcore -s vmlinux
>>> task_cpu(per_cpu(prog['runqueues'],18).curr)
18  # 正确返回CPU编号

技术启示

内核调试工具需要密切跟踪内核数据结构的演变
发行版内核可能存在与主线内核不同的修改
字段检查顺序可能影响功能正确性
需要针对特殊发行版进行额外测试

影响范围

该问题主要影响：

使用RedHat系列发行版（RHEL/CentOS/Rocky Linux 9.x）
内核版本在5.14左右的系统
依赖task_cpu()功能的调试场景

总结

通过对Drgn工具中task_cpu()函数的深入分析，我们不仅解决了特定发行版下的功能异常，更深入理解了Linux内核线程信息存储方式的演进过程。这提醒我们在开发系统工具时，需要特别关注发行版特定的内核修改，确保工具在不同环境下的可靠性。

drgn

Programmable debugger

项目地址：https://gitcode.com/gh_mirrors/dr/drgn

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统