Open5GS项目中NF实例清理不彻底导致UDR重启后回退到默认端口80的问题分析

2025-07-05 17:38:44作者：齐添朝

Open5GS is a C-language Open Source implementation for 5G Core and EPC, i.e. the core network of LTE/NR network (Release-17)

项目地址：https://gitcode.com/gh_mirrors/op/open5gs

问题背景

在Open5GS v2.7.1版本中，存在一个关于NF(Network Function)实例清理不彻底的问题，该问题会导致当UDR(User Data Repository)服务重启后，UDM(Unified Data Management)无法正确重新发现UDR实例，进而回退使用默认端口80进行通信，最终导致UE(User Equipment)重新注册失败。

问题现象

当系统运行过程中出现以下操作序列时：

UE首次注册成功
UDR服务发生重启
UE尝试再次注册

此时UDM会尝试通过SBI(Service Based Interface)与UDR通信，但会发现连接被拒绝，日志显示UDM尝试连接UDR的80端口而非正确的服务端口(如8903)。

根本原因分析

经过深入分析，发现问题根源在于NF实例的引用计数管理机制存在缺陷：

引用计数不对称：在关联NF实例和客户端时，引用计数被增加了两次：
- 第一次是在nf_instance_find_client()中通过OGS_OBJECT_REF增加
- 第二次是在OGS_SBI_SETUP_CLIENT中再次增加
清理不彻底：当NF实例被移除时，在ogs_sbi_client_remove()中只执行了一次OGS_OBJECT_UNREF，导致引用计数没有完全归零，NF实例未能被彻底清理。
残留指针问题：由于NF实例未被完全清理，UDM的sbi_object->service_type_array[service_type]中仍然保留了指向该NF实例的指针，尽管该实例及其下属的nf_service已被标记为释放。
错误回退机制：当系统无法通过nf_service找到有效客户端时，会回退使用nf_instance->client，而这个client保留了默认的80端口配置，导致连接失败。

解决方案

Open5GS开发团队针对此问题实施了以下修复措施：

改进NF实例清理流程：确保在服务关闭时完全清理所有相关资源，包括发送GOAWAY帧给所有活跃会话，防止连接重用问题。
引用计数管理优化：调整了NF实例和客户端的引用计数机制，确保创建和销毁时的对称性。
实例验证机制：改为存储nf_instance_id并在恢复时验证实例有效性，确保使用正确的客户端配置。
端口配置保护：防止系统在发现服务不可用时错误地回退到默认端口配置。

技术启示

这个问题为我们提供了几个重要的技术启示：

资源生命周期管理：在基于服务的架构中，必须严格管理各组件(如NF实例、客户端等)的生命周期，确保创建和销毁的对称性。
引用计数机制：引用计数是一种常见的资源管理技术，但必须确保增加和减少操作的严格配对，否则会导致内存泄漏或使用已释放资源的问题。
错误恢复策略：系统在遇到服务不可用时需要有合理的恢复策略，简单的回退机制可能会引入更多问题。
分布式系统健壮性：在5G核心网这样的分布式系统中，必须考虑各网元独立重启、故障恢复等场景下的系统行为。

总结

Open5GS中NF实例清理不彻底的问题展示了在复杂通信系统中资源管理的重要性。通过分析这个问题，我们不仅理解了引用计数机制的关键作用，也认识到在分布式系统中设计健壮的错误处理机制的必要性。该问题的修复显著提高了Open5GS在网元重启场景下的稳定性，为5G核心网的可靠运行提供了更好保障。

Open5GS is a C-language Open Source implementation for 5G Core and EPC, i.e. the core network of LTE/NR network (Release-17)

项目地址：https://gitcode.com/gh_mirrors/op/open5gs

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用