YARA规则解析器中的内存泄漏问题分析

2025-05-26 21:22:07作者：傅爽业Veleda

背景介绍

YARA是一款广泛应用于恶意软件识别和分类的模式匹配工具，其核心功能依赖于对规则文件的解析和执行。在YARA的规则解析过程中，当遇到语法错误或特殊条件时，可能会出现内存泄漏问题。

问题现象

在特定情况下，当YARA解析包含FOR操作符的规则文件时，如果语法不正确且解析堆栈达到最大深度(YYMAXDEPTH)，会导致内存泄漏。具体表现为分配用于存储变量名的9字节内存未被正确释放。

技术分析

解析器工作机制

YARA使用Bison生成的解析器来处理规则语法。在正常解析过程中，当遇到语法错误时，解析器会进入错误恢复流程(yyerrlab1)，此时会正确清理已分配的资源。但当解析堆栈溢出时，解析器会直接跳转到返回流程(yyreturnlab)，导致部分资源未被释放。

内存泄漏根源

问题的根本原因在于Bison解析器的设计限制。Bison确实提供了在解析失败时销毁对象的机制，但当达到YYMAXDEPTH限制时，这个机制不会应用于解析堆栈中存在的符号。这是Bison已知的设计缺陷，自2005年以来就存在相关报告。

具体场景分析

在提供的测试用例中，当解析包含FOR操作符的错误规则时：

解析器为FOR循环变量分配内存
由于语法错误导致解析失败
如果堆栈未满，错误恢复流程会正确释放内存
如果堆栈已满，直接返回流程会跳过内存释放步骤

影响评估

虽然每次泄漏的内存量不大(9字节)，但在以下场景可能造成问题：

长期运行的服务中持续解析错误规则
自动化规则测试环境中大量测试错误规则
安全产品中集成YARA作为长期运行的检测引擎

解决方案建议

由于这是Bison工具的内在限制，完全解决可能需要：

修改YARA的语法设计，减少复杂规则的堆栈使用
增加YYMAXDEPTH的值(但可能增加内存消耗)
在YARA外层添加资源清理机制
对已知会触发泄漏的规则模式进行预处理

最佳实践

对于YARA用户和开发者，建议：

在测试环境中使用内存检测工具(如ASan)验证规则
避免编写过于复杂的嵌套规则结构
定期检查长期运行服务的资源使用情况
对第三方提供的规则进行严格验证

总结

YARA规则解析器的内存泄漏问题揭示了底层解析器工具的限制对上层应用的影响。虽然单个泄漏很小，但在特定场景下可能累积成为问题。理解这一机制有助于开发者更好地设计规则和使用YARA，同时也提醒我们在选择解析工具时需要全面评估其特性。

yara

The pattern matching swiss knife

项目地址：https://gitcode.com/gh_mirrors/ya/yara

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

830

6.18 K

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。