CRIU项目在ARM64架构下的指针认证(PAC)问题分析与解决方案

2025-06-25 12:35:49作者：翟江哲Frasier

背景介绍

CRIU(Checkpoint/Restore in Userspace)是一个开源的用户空间检查点/恢复工具，它允许冻结正在运行的应用程序并将其状态保存为文件集合，随后可以从这些文件中恢复应用程序的执行。这一技术在容器迁移、故障恢复等场景中有着重要应用。

在ARM64架构中，指针认证(Pointer Authentication Code, PAC)是一项重要的安全特性，它通过对指针值进行加密签名来防止恶意代码篡改关键指针。然而，当CRIU在支持PAC的ARM64系统上进行检查点/恢复操作时，可能会遇到程序崩溃的问题。

问题现象

在使用CRIU 3.17版本对运行在Ubuntu 24.04容器中的Python程序进行检查点/恢复操作时，恢复后的进程会在从sleep函数返回后立即发生段错误。通过分析发现，程序计数器(PC)的高16位未被正确清除，导致指针认证失败。

技术分析

ARM64架构的指针认证机制会为指针值添加一个加密签名，存储在指针的高位。当启用PAC时，内核会为每个线程维护两组密钥：地址密钥(PACA)和通用密钥(PACG)。这些密钥用于指针的签名和验证。

当CRIU进行检查点操作时，如果没有保存这些PAC密钥状态，恢复后的进程将无法正确验证指针签名，导致指针高位未被清除，最终引发段错误。Linux内核提供了NT_ARM_PACA_KEYS和NT_ARM_PACG_KEYS寄存器集来支持PAC状态的检查点/恢复，但CRIU当前版本尚未实现这一功能。

解决方案

CRIU开发团队已经意识到这一问题，并正在开发相应的修复补丁。该补丁将：

添加对ARM64 PAC密钥的检查点/恢复支持
通过ptrace接口获取和设置NT_ARM_PACA_KEYS/NT_ARM_PACG_KEYS寄存器集
确保补丁向后兼容，即新版本CRIU能够恢复不含PAC信息的旧检查点

影响范围

此问题仅在满足以下条件的系统中出现：

ARM64架构处理器支持PAC特性（CPU flags中包含paca/pacg）
内核编译时启用了CONFIG_ARM64_PTR_AUTH选项
应用程序编译时启用了指针认证保护（如使用-mbranch-protection=standard编译选项）

最佳实践建议

对于需要使用CRIU的用户，建议：

关注CRIU官方补丁进展，及时更新到包含PAC支持的版本
在ARM64环境中部署前，验证PAC支持状态
对于关键业务系统，考虑暂时禁用PAC特性作为临时解决方案
应用程序开发时注意指针认证对二进制兼容性的影响

总结

ARM64指针认证是一项重要的安全特性，但其与CRIU的交互需要特殊处理。CRIU团队正在积极解决这一问题，未来版本将完整支持PAC状态的检查点/恢复。这一改进将增强CRIU在安全敏感场景下的适用性，为ARM64架构上的容器迁移和故障恢复提供更可靠的保障。

criu

Checkpoint/Restore tool

项目地址：https://gitcode.com/gh_mirrors/cr/criu

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

pytorch

Ascend Extension for PyTorch

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

465

456

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

458

5.25 K