10分钟上手Semgrep:从安装到规则编写的超实用指南
你还在为代码漏洞排查耗费数小时?还在为团队代码规范不统一而头疼?本文将带你10分钟掌握Semgrep(语义 grep)这个超实用的代码分析工具,让你轻松实现自动化代码检查。读完本文你将能够:安装Semgrep并进行基础配置、编写实用的规则检测代码问题、将Semgrep集成到开发流程中。
什么是Semgrep
Semgrep是一个快速、开源的静态分析工具,它能够搜索代码、发现漏洞并执行安全防护和编码标准。与传统的grep工具不同,Semgrep能够理解代码的语义结构,不仅能匹配精确的字符串,还能识别代码逻辑模式。
Semgrep支持30多种编程语言,包括Apex、Bash、C、C++、C#、Clojure、Dart、Dockerfile、Elixir、HTML、Go、Java、JavaScript、JSX、JSON、Julia、Jsonnet、Kotlin、Lisp、Lua、OCaml、PHP、Python、R、Ruby、Rust、Scala、Scheme、Solidity、Swift、Terraform、TypeScript、TSX、YAML、XML等。完整的语言支持列表可以查看官方文档。
安装Semgrep
使用Homebrew安装(适用于macOS)
brew install semgrep
使用pip安装(适用于Ubuntu/WSL/Linux/macOS)
python3 -m pip install semgrep
使用Docker运行(无需安装)
docker run -it -v "${PWD}:/src" semgrep/semgrep semgrep login
docker run -e SEMGREP_APP_TOKEN=<TOKEN> --rm -v "${PWD}:/src" semgrep/semgrep semgrep ci
对于开发者,如果你想从源码构建Semgrep,可以参考构建说明,主要步骤如下:
git submodule update --init --recursive
make setup # 不常运行,可能不够
make # 常规构建
make test # 测试所有内容
基础使用方法
登录Semgrep(可选)
运行semgrep login创建账户并登录,登录后可以使用更多高级功能:
- Semgrep Supply Chain:检测第三方库中可利用的漏洞
- Semgrep Code的Pro规则:由Semgrep安全研究团队编写的600多个高可信度规则
- Semgrep Code的Pro引擎:高级代码分析引擎,用于检测复杂漏洞并减少误报
基本扫描
进入项目根目录,运行semgrep ci,这将扫描项目以检查源代码及其依赖项中的漏洞。
交互式查询
使用-e参数可以交互式编写查询,例如查找Python中左右两边相同的==比较(可能是个bug):
semgrep -e '$X == $X' --lang=py path/to/src
编写自定义规则
Semgrep规则看起来就像你平常写的代码,不需要抽象语法树、复杂的正则表达式或晦涩的DSL。下面是一个简单的规则示例,用于查找Python中的print()语句。
规则基本结构
一个基本的Semgrep规则包含以下部分:
id:规则的唯一标识符pattern:要匹配的代码模式message:发现匹配时显示的消息severity:问题的严重程度(ERROR、WARNING、INFO)languages:适用的编程语言
示例规则:检测未验证的用户输入
以下规则可以检测未经过验证的用户输入直接传递到危险函数的情况:
rules:
- id: unsafe-user-input
pattern: $USER_INPUT = request.$GET(...)
message: 未验证的用户输入直接来自$GET
severity: ERROR
languages: [python]
数据流分析示例
Semgrep可以追踪数据流,检测从源(如用户输入)到汇(如危险函数)的不安全数据传递。例如,以下规则检测从ExpressJS请求到sandbox.run的数据流:
rules:
- id: expressjs-sandbox-injection
patterns:
- pattern: $REQ = require('express').request
- pattern: $SANDBOX.run($USER_INPUT)
- pattern: $USER_INPUT = $REQ.$QUERY
message: 用户输入直接传递到sandbox.run,可能导致注入攻击
severity: ERROR
languages: [javascript]
污点分析示例
下面是一个检测污点数据流向敏感函数的规则示例,来自测试用例:
def foo():
a = source() # 污点源
if cond():
b = a # 污点传播
#ruleid: tainting
sink(b) # 污点汇
对应的Semgrep规则可能如下:
rules:
- id: tainting
patterns:
- pattern: source()
- pattern: sink($X)
- pattern: $X = $Y
- pattern: $Y = source()
message: 未验证的用户输入传递到敏感函数
severity: ERROR
languages: [python]
高级功能
使用配置文件
创建一个.semgrep.yml文件,定义常用规则和配置,然后运行semgrep scan --config .semgrep.yml。
集成到CI/CD流程
Semgrep可以轻松集成到CI/CD流程中,在每次代码提交或拉取请求时自动运行。具体配置方法可以在Semgrep平台上找到,选择版本控制系统并按照引导步骤添加项目。
使用Semgrep Playground
Semgrep Playground是一个在线交互式工具,用于编写和分享规则,非常适合学习和测试规则。
规则库
Semgrep Registry提供了2000多个社区驱动的规则,涵盖安全、正确性和依赖漏洞等方面。
实际应用场景
禁止危险API
例如,防止使用exec函数:
rules:
- id: prevent-exec
pattern: exec(...)
message: 禁止使用exec函数,可能导致代码注入
severity: ERROR
languages: [python]
强制使用安全默认值
例如,安全设置Flask cookies:
rules:
- id: secure-flask-cookies
pattern: app.config['SESSION_COOKIE_SECURE'] = False
message: Flask cookies应该设置为secure
severity: ERROR
languages: [python]
fix: app.config['SESSION_COOKIE_SECURE'] = True
检测硬编码凭证
rules:
- id: hardcoded-credentials
pattern: $SECRET = "..."
pattern-regex: (password|secret|key|token)
message: 可能存在硬编码凭证
severity: ERROR
languages: [python, javascript, java]
总结
Semgrep是一个功能强大且易用的静态代码分析工具,它可以帮助开发者在早期发现代码问题,提高代码质量和安全性。通过本文的介绍,你应该已经掌握了Semgrep的基本使用方法和规则编写技巧。
要深入了解更多Semgrep功能,可以参考官方文档或访问Semgrep网站。加入Semgrep社区,与成千上万的开发者和安全工程师一起使用和改进这个工具。
后续学习资源
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00

