Zeek项目中正则表达式引擎在大重复计数时的状态爆炸问题分析
2025-06-01 15:59:38作者:郜逊炳
问题背景
在网络安全监控工具Zeek的最新开发版本中,发现了一个与正则表达式引擎相关的严重性能问题。当使用包含大量重复计数(如.{32769})的正则表达式模式时,会导致系统出现栈溢出崩溃。这个问题最初是在处理简单的PCAP文件时发现的,即使是最基本的SSH连接跟踪也会触发崩溃。
技术细节分析
问题表现
当Zeek尝试处理包含特定文件魔数签名的流量时,如file-magic /^.{32769}CD001/这样的正则表达式模式,会引发以下问题:
- 系统产生约20万层的递归调用栈
- 最终导致栈空间耗尽,出现段错误(Segmentation Fault)
- 使用地址消毒剂(ASAN)检测时,明确报告为栈溢出错误
根本原因
这个问题源于Zeek正则表达式引擎的内部实现机制:
- NFA构造方式:Zeek使用非确定性有限自动机(NFA)来实现正则表达式匹配
- 重复操作处理:对于像.{n}这样的大重复计数,引擎会生成大量连续的ε转移状态
- 析构过程递归:当这些状态对象被销毁时,析构函数的递归调用链过长,超过了系统栈容量限制
影响范围
这种问题特别容易出现在文件类型识别的场景中,因为:
- 文件魔数签名经常使用通配符匹配
- 某些文件格式(如ISO9660)的签名可能位于文件较远的位置
- 开发者倾向于使用大重复计数来确保匹配灵活性
解决方案与优化建议
临时解决方案
- 使用
.*替代.{n}模式,利用正则引擎的贪婪匹配特性 - 避免在签名中使用精确的大重复计数
长期改进方向
从技术架构角度,可以考虑以下优化:
- NFA构造优化:改进重复操作的自动机构建算法,避免生成过多中间状态
- 迭代式析构:将递归的析构过程改为迭代实现,防止栈溢出
- 重复计数限制:在引擎层面添加对大重复计数的安全检查和警告
经验总结
这个案例为开发者提供了几个重要启示:
- 正则表达式性能:即使简单的模式在特定实现下也可能导致严重性能问题
- 边界条件测试:需要对各种极端输入(如大重复计数)进行充分测试
- 递归深度控制:在核心基础设施代码中需要特别注意递归深度问题
对于Zeek用户来说,目前建议避免在签名中使用大重复计数,而改用更高效的通配符模式。开发团队也在评估更根本的解决方案来优化正则表达式引擎的实现。
登录后查看全文
热门项目推荐
相关项目推荐
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00- DDeepSeek-OCR暂无简介Python00
openPangu-Ultra-MoE-718B-V1.1昇腾原生的开源盘古 Ultra-MoE-718B-V1.1 语言模型Python00
HunyuanWorld-Mirror混元3D世界重建模型,支持多模态先验注入和多任务统一输出Python00
AI内容魔方AI内容专区,汇集全球AI开源项目,集结模块、可组合的内容,致力于分享、交流。03
Spark-Scilit-X1-13BFLYTEK Spark Scilit-X1-13B is based on the latest generation of iFLYTEK Foundation Model, and has been trained on multiple core tasks derived from scientific literature. As a large language model tailored for academic research scenarios, it has shown excellent performance in Paper Assisted Reading, Academic Translation, English Polishing, and Review Generation, aiming to provide efficient and accurate intelligent assistance for researchers, faculty members, and students.Python00
GOT-OCR-2.0-hf阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00- HHowToCook程序员在家做饭方法指南。Programmer's guide about how to cook at home (Chinese only).Dockerfile013
Spark-Chemistry-X1-13B科大讯飞星火化学-X1-13B (iFLYTEK Spark Chemistry-X1-13B) 是一款专为化学领域优化的大语言模型。它由星火-X1 (Spark-X1) 基础模型微调而来,在化学知识问答、分子性质预测、化学名称转换和科学推理方面展现出强大的能力,同时保持了强大的通用语言理解与生成能力。Python00- PpathwayPathway is an open framework for high-throughput and low-latency real-time data processing.Python00
项目优选
收起
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
247
2.45 K
deepin linux kernel
C
24
6
仓颉编译器源码及 cjdb 调试工具。
C++
116
89
React Native鸿蒙化仓库
JavaScript
217
297
暂无简介
Dart
546
119
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.01 K
595
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.02 K
409
Ascend Extension for PyTorch
Python
85
118
仓颉编程语言运行时与标准库。
Cangjie
124
102
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
592
121