Zeek项目中正则表达式引擎在大重复计数时的状态爆炸问题分析

2025-06-01 08:11:37作者：郜逊炳

Zeek is a powerful network analysis framework that is much different from the typical IDS you may know.

项目地址：https://gitcode.com/gh_mirrors/ze/zeek

问题背景

在网络安全监控工具Zeek的最新开发版本中，发现了一个与正则表达式引擎相关的严重性能问题。当使用包含大量重复计数(如.{32769})的正则表达式模式时，会导致系统出现栈溢出崩溃。这个问题最初是在处理简单的PCAP文件时发现的，即使是最基本的SSH连接跟踪也会触发崩溃。

技术细节分析

问题表现

当Zeek尝试处理包含特定文件魔数签名的流量时，如file-magic /^.{32769}CD001/这样的正则表达式模式，会引发以下问题：

系统产生约20万层的递归调用栈
最终导致栈空间耗尽，出现段错误(Segmentation Fault)
使用地址消毒剂(ASAN)检测时，明确报告为栈溢出错误

根本原因

这个问题源于Zeek正则表达式引擎的内部实现机制：

NFA构造方式：Zeek使用非确定性有限自动机(NFA)来实现正则表达式匹配
重复操作处理：对于像.{n}这样的大重复计数，引擎会生成大量连续的ε转移状态
析构过程递归：当这些状态对象被销毁时，析构函数的递归调用链过长，超过了系统栈容量限制

影响范围

这种问题特别容易出现在文件类型识别的场景中，因为：

文件魔数签名经常使用通配符匹配
某些文件格式(如ISO9660)的签名可能位于文件较远的位置
开发者倾向于使用大重复计数来确保匹配灵活性

解决方案与优化建议

临时解决方案

使用.*替代.{n}模式，利用正则引擎的贪婪匹配特性
避免在签名中使用精确的大重复计数

长期改进方向

从技术架构角度，可以考虑以下优化：

NFA构造优化：改进重复操作的自动机构建算法，避免生成过多中间状态
迭代式析构：将递归的析构过程改为迭代实现，防止栈溢出
重复计数限制：在引擎层面添加对大重复计数的安全检查和警告

经验总结

这个案例为开发者提供了几个重要启示：

正则表达式性能：即使简单的模式在特定实现下也可能导致严重性能问题
边界条件测试：需要对各种极端输入(如大重复计数)进行充分测试
递归深度控制：在核心基础设施代码中需要特别注意递归深度问题

对于Zeek用户来说，目前建议避免在签名中使用大重复计数，而改用更高效的通配符模式。开发团队也在评估更根本的解决方案来优化正则表达式引擎的实现。

Zeek is a powerful network analysis framework that is much different from the typical IDS you may know.

项目地址：https://gitcode.com/gh_mirrors/ze/zeek

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理