微软Azure Pipelines Tasks项目中AzureCLI任务取消信号处理问题分析

2025-06-21 10:06:07作者：俞予舒Fleming

问题背景

在微软Azure DevOps的CI/CD流程中，AzureCLI任务是一个常用的组件，用于执行Azure命令行操作。然而，近期发现该任务在处理管道取消操作时存在一个关键问题：当用户取消包含长时间运行AzureCLI步骤的管道时，该步骤无法被优雅地终止。

问题现象

通过测试脚本可以清晰地复现这个问题。当在AzureCLI任务中执行一个包含信号捕获机制的bash脚本时，虽然脚本中明确设置了SIGINT等信号的处理函数，但在实际管道取消操作中，这些信号处理机制并未被触发。

测试脚本的关键部分如下：

signal_caught() {
    echo Shutting Down
    exit 1
}
trap signal_caught SIGHUP SIGINT SIGQUIT SIGTERM

按照预期，当管道被取消时，应该触发信号处理函数并输出"Shutting Down"信息，但实际情况是任务直接被终止，没有任何优雅退出的过程。

技术影响

这个问题对实际生产环境有显著影响，特别是在使用AzureCLI任务执行Terraform操作时：

状态文件锁定：Terraform在执行过程中会锁定状态文件，如果被强制终止，可能导致状态文件长时间处于锁定状态
资源状态不一致：未完成的Terraform操作可能导致基础设施处于不一致状态
后续操作失败：锁定的状态文件会阻止后续的Terraform操作执行

问题根源分析

从日志分析来看，当取消操作发生时，Azure Pipelines agent确实发送了取消请求，但AzureCLI任务未能正确处理这个信号。具体表现为：

任务直接被终止，没有等待当前执行的命令完成
信号处理函数未被调用
进程被强制结束，而非优雅退出

这可能是由于AzureCLI任务的执行环境或进程管理机制存在问题，导致信号无法正确传递到实际执行的脚本进程。

临时解决方案

目前可行的临时解决方案是使用条件执行来绕过这个问题：

- task: Bash@3
  displayName: "前置检查"
  inputs:
    targetType: "inline"
    script: |
      set -e
      echo "##vso[task.setvariable variable=stepBeforeRan]true"
- task: AzureCLI@2
  displayName: "执行操作"
  condition: and(always(), eq(variables['stepBeforeRan'], 'true'))