10分钟上手Semgrep:从安装到规则编写的超实用指南
你还在为代码漏洞排查耗费数小时?还在为团队代码规范不统一而头疼?本文将带你10分钟掌握Semgrep(语义 grep)这个超实用的代码分析工具,让你轻松实现自动化代码检查。读完本文你将能够:安装Semgrep并进行基础配置、编写实用的规则检测代码问题、将Semgrep集成到开发流程中。
什么是Semgrep
Semgrep是一个快速、开源的静态分析工具,它能够搜索代码、发现漏洞并执行安全防护和编码标准。与传统的grep工具不同,Semgrep能够理解代码的语义结构,不仅能匹配精确的字符串,还能识别代码逻辑模式。
Semgrep支持30多种编程语言,包括Apex、Bash、C、C++、C#、Clojure、Dart、Dockerfile、Elixir、HTML、Go、Java、JavaScript、JSX、JSON、Julia、Jsonnet、Kotlin、Lisp、Lua、OCaml、PHP、Python、R、Ruby、Rust、Scala、Scheme、Solidity、Swift、Terraform、TypeScript、TSX、YAML、XML等。完整的语言支持列表可以查看官方文档。
安装Semgrep
使用Homebrew安装(适用于macOS)
brew install semgrep
使用pip安装(适用于Ubuntu/WSL/Linux/macOS)
python3 -m pip install semgrep
使用Docker运行(无需安装)
docker run -it -v "${PWD}:/src" semgrep/semgrep semgrep login
docker run -e SEMGREP_APP_TOKEN=<TOKEN> --rm -v "${PWD}:/src" semgrep/semgrep semgrep ci
对于开发者,如果你想从源码构建Semgrep,可以参考构建说明,主要步骤如下:
git submodule update --init --recursive
make setup # 不常运行,可能不够
make # 常规构建
make test # 测试所有内容
基础使用方法
登录Semgrep(可选)
运行semgrep login创建账户并登录,登录后可以使用更多高级功能:
- Semgrep Supply Chain:检测第三方库中可利用的漏洞
- Semgrep Code的Pro规则:由Semgrep安全研究团队编写的600多个高可信度规则
- Semgrep Code的Pro引擎:高级代码分析引擎,用于检测复杂漏洞并减少误报
基本扫描
进入项目根目录,运行semgrep ci,这将扫描项目以检查源代码及其依赖项中的漏洞。
交互式查询
使用-e参数可以交互式编写查询,例如查找Python中左右两边相同的==比较(可能是个bug):
semgrep -e '$X == $X' --lang=py path/to/src
编写自定义规则
Semgrep规则看起来就像你平常写的代码,不需要抽象语法树、复杂的正则表达式或晦涩的DSL。下面是一个简单的规则示例,用于查找Python中的print()语句。
规则基本结构
一个基本的Semgrep规则包含以下部分:
id:规则的唯一标识符pattern:要匹配的代码模式message:发现匹配时显示的消息severity:问题的严重程度(ERROR、WARNING、INFO)languages:适用的编程语言
示例规则:检测未验证的用户输入
以下规则可以检测未经过验证的用户输入直接传递到危险函数的情况:
rules:
- id: unsafe-user-input
pattern: $USER_INPUT = request.$GET(...)
message: 未验证的用户输入直接来自$GET
severity: ERROR
languages: [python]
数据流分析示例
Semgrep可以追踪数据流,检测从源(如用户输入)到汇(如危险函数)的不安全数据传递。例如,以下规则检测从ExpressJS请求到sandbox.run的数据流:
rules:
- id: expressjs-sandbox-injection
patterns:
- pattern: $REQ = require('express').request
- pattern: $SANDBOX.run($USER_INPUT)
- pattern: $USER_INPUT = $REQ.$QUERY
message: 用户输入直接传递到sandbox.run,可能导致注入攻击
severity: ERROR
languages: [javascript]
污点分析示例
下面是一个检测污点数据流向敏感函数的规则示例,来自测试用例:
def foo():
a = source() # 污点源
if cond():
b = a # 污点传播
#ruleid: tainting
sink(b) # 污点汇
对应的Semgrep规则可能如下:
rules:
- id: tainting
patterns:
- pattern: source()
- pattern: sink($X)
- pattern: $X = $Y
- pattern: $Y = source()
message: 未验证的用户输入传递到敏感函数
severity: ERROR
languages: [python]
高级功能
使用配置文件
创建一个.semgrep.yml文件,定义常用规则和配置,然后运行semgrep scan --config .semgrep.yml。
集成到CI/CD流程
Semgrep可以轻松集成到CI/CD流程中,在每次代码提交或拉取请求时自动运行。具体配置方法可以在Semgrep平台上找到,选择版本控制系统并按照引导步骤添加项目。
使用Semgrep Playground
Semgrep Playground是一个在线交互式工具,用于编写和分享规则,非常适合学习和测试规则。
规则库
Semgrep Registry提供了2000多个社区驱动的规则,涵盖安全、正确性和依赖漏洞等方面。
实际应用场景
禁止危险API
例如,防止使用exec函数:
rules:
- id: prevent-exec
pattern: exec(...)
message: 禁止使用exec函数,可能导致代码注入
severity: ERROR
languages: [python]
强制使用安全默认值
例如,安全设置Flask cookies:
rules:
- id: secure-flask-cookies
pattern: app.config['SESSION_COOKIE_SECURE'] = False
message: Flask cookies应该设置为secure
severity: ERROR
languages: [python]
fix: app.config['SESSION_COOKIE_SECURE'] = True
检测硬编码凭证
rules:
- id: hardcoded-credentials
pattern: $SECRET = "..."
pattern-regex: (password|secret|key|token)
message: 可能存在硬编码凭证
severity: ERROR
languages: [python, javascript, java]
总结
Semgrep是一个功能强大且易用的静态代码分析工具,它可以帮助开发者在早期发现代码问题,提高代码质量和安全性。通过本文的介绍,你应该已经掌握了Semgrep的基本使用方法和规则编写技巧。
要深入了解更多Semgrep功能,可以参考官方文档或访问Semgrep网站。加入Semgrep社区,与成千上万的开发者和安全工程师一起使用和改进这个工具。
后续学习资源
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
ruoyi-plus-soybeanRuoYi-Plus-Soybean 是一个现代化的企业级多租户管理系统,它结合了 RuoYi-Vue-Plus 的强大后端功能和 Soybean Admin 的现代化前端特性,为开发者提供了完整的企业管理解决方案。Vue06- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00

