Azure-Samples/azure-search-openai-demo项目中DataLake Gen2文件系统路径配置问题解析

2025-06-01 04:23:11作者：蔡丛锟

A sample app for the Retrieval-Augmented Generation pattern running in Azure, using Azure AI Search for retrieval and Azure OpenAI large language models to power ChatGPT-style and Q&A experiences.

项目地址：https://gitcode.com/GitHub_Trending/az/azure-search-openai-demo

在Azure-Samples/azure-search-openai-demo项目中，当用户尝试使用预定义的DataLake Gen2文件系统和路径配置时，可能会遇到脚本无法正确识别环境变量的问题。这个问题主要出现在prepdocs.ps1脚本中，该脚本用于准备文档数据并将其上传到Azure存储服务。

问题背景

项目中的LoginAndAclSetup文档提到了两个关键环境变量：

AZURE_ADLS_GEN2_FILESYSTEM
AZURE_ADLS_GEN2_FILESYSTEM_PATH

这些变量本应用于指定现有的DataLake Gen2文件系统及其路径，以便存储带有访问控制列表的样本数据。然而，实际执行时，prepdocs.ps1脚本却使用了不同的变量名：

ADLS_GEN2_FILESYSTEM
ADLS_GEN2_FILESYSTEM_PATH

这种命名不一致导致脚本无法正确识别用户预先配置的环境变量，从而无法将文档数据上传到预期的DataLake Gen2位置。

技术细节分析

在PowerShell脚本(prepdocs.ps1)和Shell脚本(prepdocs.sh)中，对DataLake Gen2文件系统和路径的处理存在差异：

PowerShell脚本(prepdocs.ps1)直接使用了ADLS_GEN2_FILESYSTEM和ADLS_GEN2_FILESYSTEM_PATH变量名，而没有考虑文档中提到的AZURE前缀版本。
Shell脚本(prepdocs.sh)则正确地映射了环境变量，能够识别AZURE_ADLS_GEN2_FILESYSTEM和AZURE_ADLS_GEN2_FILESYSTEM_PATH变量。
文档中的环境变量参考部分还包含了一些实际上未被使用的变量名（带有STORAGE字样的版本），这可能会进一步混淆用户。

解决方案

对于遇到此问题的用户，可以采取以下临时解决方案：

在使用prepdocs.ps1脚本时，确保设置的是ADLS_GEN2_FILESYSTEM和ADLS_GEN2_FILESYSTEM_PATH变量，而不是文档中提到的AZURE前缀版本。
或者考虑使用prepdocs.sh脚本，该脚本能够正确识别文档中提到的变量名。
等待项目维护者发布修复版本，统一变量命名规范。