【亲测免费】 weggli：C/C++代码库的强大语义搜索工具

2026-01-22 04:12:58作者：盛欣凯Ernestine

weggli is a fast and robust semantic search tool for C and C++ codebases. It is designed to help security researchers identify interesting functionality in large codebases.

项目地址：https://gitcode.com/gh_mirrors/we/weggli

项目介绍

weggli 是一款专为C和C++代码库设计的高效、稳健的语义搜索工具。它旨在帮助安全研究人员在大规模代码库中快速识别出有趣的功能模块。weggli通过在抽象语法树（AST）上进行模式匹配，实现了用户提供的查询与代码库的精准匹配。其查询语言与C和C++代码高度相似，使得用户可以轻松地将感兴趣的代码模式转化为查询。

项目技术分析

weggli的核心技术基于tree-sitter解析库及其C和C++语法。查询首先通过扩展版本的语法进行解析，生成的AST随后被转换为tree-sitter查询。实际的查询匹配在query.rs中实现，这是一个相对较小的tree-sitter查询引擎的封装，添加了weggli特有的功能。

项目及技术应用场景

weggli适用于以下场景：

安全代码审查：安全研究人员可以使用weggli快速定位代码库中的潜在漏洞，如未初始化的指针、不安全的内存操作等。
代码重构：开发者在进行代码重构时，可以使用weggli查找特定模式的代码片段，确保重构的全面性和准确性。
自动化测试：测试人员可以利用weggli生成测试用例，覆盖代码库中的关键功能模块。

项目特点

C++支持：weggli对现代C++构造（如lambda表达式、基于范围的for循环和constexpr）提供了一流的支持。
最小化设置：weggli无需构建软件，可以直接在大多数软件上运行，支持不完整的源代码或缺失的依赖项。
交互式使用：weggli设计用于交互式使用，查询性能极快，通常比grep搜索更快，支持快速切换代码审查和查询创建/改进。
贪婪匹配：weggli的模式匹配设计为尽可能多地找到有用的匹配项，虽然这增加了误报的风险，但简化了查询创建。

使用示例

以下是一些使用weggli的示例：

查找写入栈缓冲区的memcpy调用：

weggli '{
    _ $buf[_];
    memcpy($buf,_,_);
}' ./target/src

查找未检查返回值的foo调用：

weggli '{
   strict: foo(_);
}' ./target/src

查找潜在的snprintf()漏洞：

weggli '{
    $ret = snprintf($b,_,_);
    $b[$ret] = _;
}' ./target/src

安装与构建

weggli可以通过以下命令安装：

$ cargo install weggli

或者通过源码构建：

# 可选：安装Rust
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh 

git clone https://github.com/googleprojectzero/weggli.git
cd weggli; cargo build --release
./target/release/weggli

贡献与许可

weggli是一个开源项目，欢迎社区贡献。详细信息请参阅CONTRIBUTING.md。项目采用Apache 2.0许可证，更多信息请参阅LICENSE。

免责声明

weggli并非Google官方项目，不受Google支持，Google对其质量、适销性或特定用途的适用性不作任何保证。

weggli