libwebsockets中NULL指针异常问题的分析与解决

2025-06-10 13:10:12作者：翟萌耘Ralph

问题背景

在libwebsockets v4.3稳定版本中，当处理大量WebSocket连接时，特别是在异常断开连接的情况下，系统会出现NULL指针异常导致崩溃。这个问题主要出现在使用多线程服务模式时，当客户端异常终止连接(如强制杀死客户端进程)时触发。

问题现象

开发者在CentOS 7.9系统上，使用libwebsockets v4.3稳定版本构建WebSocket服务器。当建立约10,000个WebSocket连接后，如果客户端异常断开(如强制终止客户端进程)，服务器会出现NULL指针异常并崩溃。通过堆栈追踪分析，问题出现在__lws_sul_service_ripe函数中。

根本原因分析

经过深入分析，这个问题主要由以下两个因素共同导致：

定时器未正确取消：当WebSocket连接对象被销毁时，其关联的定时器(sul)未被正确取消。这导致定时器仍然存在于链表中，当服务尝试处理这些已销毁对象的定时器时，就会访问到无效内存。
线程安全问题：虽然所有操作都在lws线程上下文中执行，但在多线程环境下(特别是使用libuv事件循环时)，如果没有正确处理线程同步，仍可能导致竞态条件。

解决方案

针对这个问题，libwebsockets开发团队已经提供了修复方案：

显式取消定时器：在销毁任何包含定时器的对象前，必须显式调用lws_sul_cancel()函数取消定时器。这确保了定时器从所有链表中正确移除。
线程安全最佳实践：确保所有lws相关操作都在同一线程上下文中执行，避免跨线程操作共享数据结构。如果必须使用多线程，应该使用lws提供的线程安全机制。

系统兼容性说明

在尝试复现和解决此问题时，还发现了一个相关但独立的构建问题。在某些较旧的Linux发行版(如CentOS 7)上，由于系统头文件定义冲突，可能导致构建失败。这是因为in6_pktinfo和ip6_mtuinfo结构体在多个系统头文件中被重复定义。这个问题在较新版本的Linux发行版(如Rocky Linux 9.3)上已经得到解决。