PJProject视频通话应用中的死锁问题分析与解决

2025-07-03 18:26:05作者：翟萌耘Ralph

问题背景

在PJProject 2.14.1版本的视频通话应用(vidgui)中，开发人员发现了一个严重的稳定性问题：当两台设备之间反复进行视频通话建立和挂断操作时，视频功能会出现挂起现象。具体表现为视频流停止更新，但音频连接仍能正常工作。

问题现象

该问题在以下场景中可稳定复现：

设备A向设备B发起视频通话
设备B接听后等待一段时间并挂断
设备B向设备A发起视频通话
设备A接听后等待一段时间并挂断
重复上述过程约10次后，视频功能即会出现挂起

通过调试发现，当问题发生时，视频时钟回调函数on_clock_tick不再被调用，表明视频处理流程已被阻塞。

技术分析

通过深入调试和堆栈分析，发现问题涉及两个关键线程的交互：

视频接收线程：负责处理接收到的RTP数据包，调用on_rx_rtp函数进行视频帧解码
视频时钟线程：定时触发的on_clock_tick回调，负责视频帧的编码和发送

死锁发生的具体位置：

视频接收线程在decode_frame函数中持有了流媒体组的锁(stream->grp_lock)
同时，视频时钟线程在transport_send_rtp函数中尝试获取ICE传输层的锁(ice_st->grp_lock)

根本原因

进一步分析发现，这个问题实际上是由应用程序层的一个自定义锁引起的。开发人员曾在PJProject 2.13版本中为规避挂断按钮点击时的挂起问题，在应用层添加了一个锁机制。然而这个锁在2.14.1版本中未能正确释放，导致在新呼叫建立时出现死锁。

值得注意的是，PJProject 2.14.1版本本身已经修复了挂断时的稳定性问题，不再需要应用层的这个锁机制。

解决方案

解决此问题的步骤非常简单：

移除应用程序中添加的自定义锁机制
完全依赖PJProject 2.14.1版本内置的稳定性修复

经验总结

这个案例提供了几个有价值的经验教训：

版本升级后的兼容性检查：当升级底层库版本时，需要重新评估之前添加的各种补丁和工作区间的必要性
死锁问题分析方法：通过获取所有线程的完整堆栈信息，可以快速定位死锁发生的具体位置
锁机制的使用原则：添加自定义锁时需要特别谨慎，确保在所有代码路径上都能正确释放

最终，通过移除不必要的应用层锁机制，视频通话的稳定性得到了显著提升，反复建立和挂断通话的操作也不再导致视频功能挂起。

pjproject

PJSIP project

项目地址：https://gitcode.com/gh_mirrors/pj/pjproject

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理