10分钟上手Semgrep:从安装到规则编写的超实用指南
你还在为代码漏洞排查耗费数小时?还在为团队代码规范不统一而头疼?本文将带你10分钟掌握Semgrep(语义 grep)这个超实用的代码分析工具,让你轻松实现自动化代码检查。读完本文你将能够:安装Semgrep并进行基础配置、编写实用的规则检测代码问题、将Semgrep集成到开发流程中。
什么是Semgrep
Semgrep是一个快速、开源的静态分析工具,它能够搜索代码、发现漏洞并执行安全防护和编码标准。与传统的grep工具不同,Semgrep能够理解代码的语义结构,不仅能匹配精确的字符串,还能识别代码逻辑模式。
Semgrep支持30多种编程语言,包括Apex、Bash、C、C++、C#、Clojure、Dart、Dockerfile、Elixir、HTML、Go、Java、JavaScript、JSX、JSON、Julia、Jsonnet、Kotlin、Lisp、Lua、OCaml、PHP、Python、R、Ruby、Rust、Scala、Scheme、Solidity、Swift、Terraform、TypeScript、TSX、YAML、XML等。完整的语言支持列表可以查看官方文档。
安装Semgrep
使用Homebrew安装(适用于macOS)
brew install semgrep
使用pip安装(适用于Ubuntu/WSL/Linux/macOS)
python3 -m pip install semgrep
使用Docker运行(无需安装)
docker run -it -v "${PWD}:/src" semgrep/semgrep semgrep login
docker run -e SEMGREP_APP_TOKEN=<TOKEN> --rm -v "${PWD}:/src" semgrep/semgrep semgrep ci
对于开发者,如果你想从源码构建Semgrep,可以参考构建说明,主要步骤如下:
git submodule update --init --recursive
make setup # 不常运行,可能不够
make # 常规构建
make test # 测试所有内容
基础使用方法
登录Semgrep(可选)
运行semgrep login创建账户并登录,登录后可以使用更多高级功能:
- Semgrep Supply Chain:检测第三方库中可利用的漏洞
- Semgrep Code的Pro规则:由Semgrep安全研究团队编写的600多个高可信度规则
- Semgrep Code的Pro引擎:高级代码分析引擎,用于检测复杂漏洞并减少误报
基本扫描
进入项目根目录,运行semgrep ci,这将扫描项目以检查源代码及其依赖项中的漏洞。
交互式查询
使用-e参数可以交互式编写查询,例如查找Python中左右两边相同的==比较(可能是个bug):
semgrep -e '$X == $X' --lang=py path/to/src
编写自定义规则
Semgrep规则看起来就像你平常写的代码,不需要抽象语法树、复杂的正则表达式或晦涩的DSL。下面是一个简单的规则示例,用于查找Python中的print()语句。
规则基本结构
一个基本的Semgrep规则包含以下部分:
id:规则的唯一标识符pattern:要匹配的代码模式message:发现匹配时显示的消息severity:问题的严重程度(ERROR、WARNING、INFO)languages:适用的编程语言
示例规则:检测未验证的用户输入
以下规则可以检测未经过验证的用户输入直接传递到危险函数的情况:
rules:
- id: unsafe-user-input
pattern: $USER_INPUT = request.$GET(...)
message: 未验证的用户输入直接来自$GET
severity: ERROR
languages: [python]
数据流分析示例
Semgrep可以追踪数据流,检测从源(如用户输入)到汇(如危险函数)的不安全数据传递。例如,以下规则检测从ExpressJS请求到sandbox.run的数据流:
rules:
- id: expressjs-sandbox-injection
patterns:
- pattern: $REQ = require('express').request
- pattern: $SANDBOX.run($USER_INPUT)
- pattern: $USER_INPUT = $REQ.$QUERY
message: 用户输入直接传递到sandbox.run,可能导致注入攻击
severity: ERROR
languages: [javascript]
污点分析示例
下面是一个检测污点数据流向敏感函数的规则示例,来自测试用例:
def foo():
a = source() # 污点源
if cond():
b = a # 污点传播
#ruleid: tainting
sink(b) # 污点汇
对应的Semgrep规则可能如下:
rules:
- id: tainting
patterns:
- pattern: source()
- pattern: sink($X)
- pattern: $X = $Y
- pattern: $Y = source()
message: 未验证的用户输入传递到敏感函数
severity: ERROR
languages: [python]
高级功能
使用配置文件
创建一个.semgrep.yml文件,定义常用规则和配置,然后运行semgrep scan --config .semgrep.yml。
集成到CI/CD流程
Semgrep可以轻松集成到CI/CD流程中,在每次代码提交或拉取请求时自动运行。具体配置方法可以在Semgrep平台上找到,选择版本控制系统并按照引导步骤添加项目。
使用Semgrep Playground
Semgrep Playground是一个在线交互式工具,用于编写和分享规则,非常适合学习和测试规则。
规则库
Semgrep Registry提供了2000多个社区驱动的规则,涵盖安全、正确性和依赖漏洞等方面。
实际应用场景
禁止危险API
例如,防止使用exec函数:
rules:
- id: prevent-exec
pattern: exec(...)
message: 禁止使用exec函数,可能导致代码注入
severity: ERROR
languages: [python]
强制使用安全默认值
例如,安全设置Flask cookies:
rules:
- id: secure-flask-cookies
pattern: app.config['SESSION_COOKIE_SECURE'] = False
message: Flask cookies应该设置为secure
severity: ERROR
languages: [python]
fix: app.config['SESSION_COOKIE_SECURE'] = True
检测硬编码凭证
rules:
- id: hardcoded-credentials
pattern: $SECRET = "..."
pattern-regex: (password|secret|key|token)
message: 可能存在硬编码凭证
severity: ERROR
languages: [python, javascript, java]
总结
Semgrep是一个功能强大且易用的静态代码分析工具,它可以帮助开发者在早期发现代码问题,提高代码质量和安全性。通过本文的介绍,你应该已经掌握了Semgrep的基本使用方法和规则编写技巧。
要深入了解更多Semgrep功能,可以参考官方文档或访问Semgrep网站。加入Semgrep社区,与成千上万的开发者和安全工程师一起使用和改进这个工具。
后续学习资源
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust069- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
Hy3-previewHy3 preview 是由腾讯混元团队研发的2950亿参数混合专家(Mixture-of-Experts, MoE)模型,包含210亿激活参数和38亿MTP层参数。Hy3 preview是在我们重构的基础设施上训练的首款模型,也是目前发布的性能最强的模型。该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体任务等方面均实现了显著提升。Python00

