10分钟上手Semgrep：从安装到规则编写的超实用指南

2026-02-05 05:25:36作者：郜逊炳

你还在为代码漏洞排查耗费数小时？还在为团队代码规范不统一而头疼？本文将带你10分钟掌握Semgrep（语义 grep）这个超实用的代码分析工具，让你轻松实现自动化代码检查。读完本文你将能够：安装Semgrep并进行基础配置、编写实用的规则检测代码问题、将Semgrep集成到开发流程中。

什么是Semgrep

Semgrep是一个快速、开源的静态分析工具，它能够搜索代码、发现漏洞并执行安全防护和编码标准。与传统的grep工具不同，Semgrep能够理解代码的语义结构，不仅能匹配精确的字符串，还能识别代码逻辑模式。

Semgrep支持30多种编程语言，包括Apex、Bash、C、C++、C#、Clojure、Dart、Dockerfile、Elixir、HTML、Go、Java、JavaScript、JSX、JSON、Julia、Jsonnet、Kotlin、Lisp、Lua、OCaml、PHP、Python、R、Ruby、Rust、Scala、Scheme、Solidity、Swift、Terraform、TypeScript、TSX、YAML、XML等。完整的语言支持列表可以查看官方文档。

安装Semgrep

使用Homebrew安装（适用于macOS）

brew install semgrep

使用pip安装（适用于Ubuntu/WSL/Linux/macOS）

python3 -m pip install semgrep

使用Docker运行（无需安装）

docker run -it -v "${PWD}:/src" semgrep/semgrep semgrep login
docker run -e SEMGREP_APP_TOKEN=<TOKEN> --rm -v "${PWD}:/src" semgrep/semgrep semgrep ci

对于开发者，如果你想从源码构建Semgrep，可以参考构建说明，主要步骤如下：

git submodule update --init --recursive
make setup       # 不常运行，可能不够
make             # 常规构建
make test        # 测试所有内容

基础使用方法

登录Semgrep（可选）

运行semgrep login创建账户并登录，登录后可以使用更多高级功能：

Semgrep Supply Chain：检测第三方库中可利用的漏洞
Semgrep Code的Pro规则：由Semgrep安全研究团队编写的600多个高可信度规则
Semgrep Code的Pro引擎：高级代码分析引擎，用于检测复杂漏洞并减少误报

基本扫描

进入项目根目录，运行semgrep ci，这将扫描项目以检查源代码及其依赖项中的漏洞。

交互式查询

使用-e参数可以交互式编写查询，例如查找Python中左右两边相同的==比较（可能是个bug）：

semgrep -e '$X == $X' --lang=py path/to/src

编写自定义规则

Semgrep规则看起来就像你平常写的代码，不需要抽象语法树、复杂的正则表达式或晦涩的DSL。下面是一个简单的规则示例，用于查找Python中的print()语句。

规则基本结构

一个基本的Semgrep规则包含以下部分：

id：规则的唯一标识符
pattern：要匹配的代码模式
message：发现匹配时显示的消息
severity：问题的严重程度（ERROR、WARNING、INFO）
languages：适用的编程语言

示例规则：检测未验证的用户输入

以下规则可以检测未经过验证的用户输入直接传递到危险函数的情况：

rules:
- id: unsafe-user-input
  pattern: $USER_INPUT = request.$GET(...)
  message: 未验证的用户输入直接来自$GET
  severity: ERROR
  languages: [python]

数据流分析示例

Semgrep可以追踪数据流，检测从源（如用户输入）到汇（如危险函数）的不安全数据传递。例如，以下规则检测从ExpressJS请求到sandbox.run的数据流：

rules:
- id: expressjs-sandbox-injection
  patterns:
  - pattern: $REQ = require('express').request
  - pattern: $SANDBOX.run($USER_INPUT)
  - pattern: $USER_INPUT = $REQ.$QUERY
  message: 用户输入直接传递到sandbox.run，可能导致注入攻击
  severity: ERROR
  languages: [javascript]

污点分析示例

下面是一个检测污点数据流向敏感函数的规则示例，来自测试用例：

def foo():
  a = source()  # 污点源
  if cond():
     b = a      # 污点传播
  #ruleid: tainting
  sink(b)       # 污点汇

对应的Semgrep规则可能如下：

rules:
- id: tainting
  patterns:
  - pattern: source()
  - pattern: sink($X)
  - pattern: $X = $Y
  - pattern: $Y = source()
  message: 未验证的用户输入传递到敏感函数
  severity: ERROR
  languages: [python]

高级功能

使用配置文件

创建一个.semgrep.yml文件，定义常用规则和配置，然后运行semgrep scan --config .semgrep.yml。

集成到CI/CD流程

Semgrep可以轻松集成到CI/CD流程中，在每次代码提交或拉取请求时自动运行。具体配置方法可以在Semgrep平台上找到，选择版本控制系统并按照引导步骤添加项目。

使用Semgrep Playground

Semgrep Playground是一个在线交互式工具，用于编写和分享规则，非常适合学习和测试规则。

规则库

Semgrep Registry提供了2000多个社区驱动的规则，涵盖安全、正确性和依赖漏洞等方面。

实际应用场景

禁止危险API

例如，防止使用exec函数：

rules:
- id: prevent-exec
  pattern: exec(...)
  message: 禁止使用exec函数，可能导致代码注入
  severity: ERROR
  languages: [python]

强制使用安全默认值

例如，安全设置Flask cookies：

rules:
- id: secure-flask-cookies
  pattern: app.config['SESSION_COOKIE_SECURE'] = False
  message: Flask cookies应该设置为secure
  severity: ERROR
  languages: [python]
  fix: app.config['SESSION_COOKIE_SECURE'] = True

检测硬编码凭证

rules:
- id: hardcoded-credentials
  pattern: $SECRET = "..."
  pattern-regex: (password|secret|key|token)
  message: 可能存在硬编码凭证
  severity: ERROR
  languages: [python, javascript, java]