Azure Enterprise-Scale 部署中诊断设置失败的排查与解决

2025-07-08 01:58:33作者：谭伦延

The Azure Landing Zones (Enterprise-Scale) architecture provides prescriptive guidance coupled with Azure best practices, and it follows design principles across the critical design areas for organizations to define their Azure architecture

项目地址：https://gitcode.com/gh_mirrors/en/Enterprise-Scale

在Azure Enterprise-Scale（ALZ）部署过程中，用户可能会遇到管理组诊断设置部署失败的问题。本文将深入分析这一问题的成因、排查方法以及解决方案。

问题现象

在ALZ部署向导执行过程中，部分管理组的诊断设置部署失败，错误信息显示为"InvalidAuthenticationToken"。具体表现为：

首次部署时10个诊断设置全部失败
第二次尝试仍有5个诊断设置失败
最终在第三次部署时成功完成

根本原因分析

诊断设置部署失败通常与以下因素有关：

资源提供程序未注册：Microsoft.Insights资源提供程序需要在管理订阅上注册才能正常工作
平台临时性问题：Azure平台可能存在短暂的认证或令牌验证问题
权限不足：部署服务主体可能缺少必要的权限

解决方案

1. 验证资源提供程序注册状态

确保在所有相关订阅上注册了Microsoft.Insights资源提供程序。可以通过Azure门户或使用Azure CLI/PowerShell命令进行检查和注册。

2. 重试部署机制

由于可能是平台临时性问题，建议：

等待一段时间后重试部署
采用分阶段部署策略，先部署关键组件
监控Azure服务健康状态，避开平台维护时段

3. 权限验证

确保部署使用的服务主体具有足够权限：

管理组级别的读写权限
诊断设置创建权限
日志分析工作区写入权限

最佳实践建议

分阶段部署：将ALZ部署分为多个阶段，先验证核心组件
监控和日志：启用部署日志记录，便于问题排查
自动化重试：为关键组件部署实现自动化重试逻辑
预验证检查：部署前运行环境检查脚本，验证所有前提条件

总结

Azure Enterprise-Scale部署中的诊断设置失败通常是暂时性问题，通过验证资源提供程序状态、适当等待后重试以及确保足够权限，大多数情况下可以解决。对于关键业务部署，建议预留足够的时间缓冲并采用分阶段部署策略，以应对可能的平台临时性问题。

Enterprise-Scale

项目地址：https://gitcode.com/gh_mirrors/en/Enterprise-Scale

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

458

450

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Python

152

250