Semmle QL项目中实现TaintLoop规则检测的要点解析

2025-05-28 23:10:01作者：晏闻田Solitary

前言

在静态代码分析领域，Semmle QL是一个强大的查询语言，可用于编写自定义的安全规则。本文将深入探讨如何在Semmle QL中实现一个检测"Tainted Loop"（受污染循环）的规则，该规则用于识别循环条件中使用不可信输入的安全风险。

Tainted Loop检测的核心概念

Tainted Loop指的是循环条件中使用了来自外部不可信源的输入数据，这可能导致潜在的安全问题，如拒绝服务攻击(DoS)或资源耗尽。在CWE分类中，这属于CWE-606类型的问题。

实现要点分析

1. 数据流追踪基础

实现Tainted Loop检测需要建立从污染源到循环条件的数据流追踪。在Semmle QL中，这通常通过TaintTracking模块实现：

import semmle.code.cpp.security.FlowSources
import semmle.code.cpp.ir.dataflow.TaintTracking

2. 污染源定义

污染源通常定义为外部输入，如环境变量、用户输入等：

predicate isSource(FlowSource source, string sourceType) {
  sourceType = source.getSourceType()
}

3. 关键实现难点：循环条件识别

最初实现中常见的误区是直接匹配循环条件表达式，而实际上需要识别条件表达式的所有子节点：

// 错误实现：仅匹配条件表达式本身
predicate sensitiveCondition(Expr condition) {
  exists(ForStmt forstmt |
    forstmt.getCondition() = condition
  )
}

// 正确实现：匹配条件表达式及其所有子节点
predicate sensitiveCondition(Expr condition) {
  exists(ForStmt forstmt |
    forstmt.getCondition().getAChild*() = condition
  )
}

getAChild*()表示递归获取所有子节点，这对于识别像i < factor这样的二元表达式中的factor变量至关重要。

4. 完整规则实现

结合数据流追踪和条件识别，完整的规则实现如下：

module Config implements DataFlow::ConfigSig {
  predicate isSource(DataFlow::Node node) { isSource(node, _) }

  predicate isSink(DataFlow::Node node) {
    sensitiveCondition(node.asExpr())
  }
}

module Flow = TaintTracking::Global<Config>;

实际案例分析

考虑以下易受攻击的代码模式：

void vulnerableFunction() {
    int limit = atoi(getenv("LOOP_LIMIT")); // 污染源
    for(int i = 0; i < limit; i++) {        // 污染数据用于循环条件
        // 循环体
    }
}