在Azure AI Studio中使用自有数据构建生成式AI应用

2025-06-19 12:44:09作者：魏侃纯Zoe

概述

本文将指导您如何在Azure AI Studio中创建一个能够利用自有数据的生成式AI应用。我们将使用检索增强生成(RAG)技术，将自定义数据源集成到生成式AI模型中，构建一个基于聊天的智能应用。

什么是检索增强生成(RAG)

检索增强生成(Retrieval Augmented Generation)是一种将外部知识源与大型语言模型结合的技术。RAG模式的工作流程如下：

用户提出问题
系统从知识库中检索相关信息
将检索到的信息与问题一起提供给语言模型
模型生成基于检索内容的回答

这种技术特别适合需要基于特定领域知识回答问题的场景，如客户服务、技术支持或本文中的旅游咨询应用。

环境准备

创建Azure AI Studio中心

登录Azure AI Studio门户
创建新的AI中心资源
配置项目设置：
- 选择订阅和资源组
- 设置区域(推荐使用East US 2或Sweden Central)
等待项目创建完成

模型部署

我们的解决方案需要部署两个关键模型：

文本嵌入模型(text-embedding-ada-002)：
- 用于将文本数据向量化
- 便于高效索引和处理
- 配置50K TPM(每分钟令牌数)的速率限制
生成模型(gpt-4o)：
- 用于基于数据生成自然语言回答
- 同样配置50K TPM的速率限制

提示：如果当前区域配额不足，可能需要选择其他区域创建资源。

数据准备与索引

添加数据源

下载旅游宣传册PDF文件集
在项目中上传这些文件
命名为"brochures"数据集

创建搜索索引

基于上传的数据创建新的Azure AI搜索资源
- 选择Basic定价层
- 确保与AI中心在同一区域
配置向量索引：
- 索引名称：brochures-index
- 使用text-embedding-ada-002模型进行嵌入
- 启用向量搜索

索引创建过程包括：

文档解析和分块
文本标记嵌入
搜索索引构建
资产注册

提示：索引创建可能需要一些时间，可以利用这段时间熟悉宣传册内容。

测试索引

在将索引集成到应用前，我们可以通过Playground进行测试：

选择Chat Playground
使用gpt-4o模型
测试两种场景：
- 不添加数据：询问"纽约有什么住宿选择？"
- 添加索引后：询问同样问题，比较回答差异

构建RAG客户端应用

应用配置

准备开发环境(Cloud Shell)
克隆包含示例代码的存储库
安装必要的SDK：
- Python：安装OpenAI SDK
- C#：添加Azure.AI.OpenAI包
配置应用设置文件：
- OpenAI终结点和API密钥
- 模型部署名称
- 搜索资源终结点和密钥
- 索引名称

代码解析

RAG应用的核心逻辑包括：

创建Azure OpenAI客户端
设置系统消息(定义聊天角色)
处理用户输入：
- 向量化查询文本
- 搜索索引获取相关内容
- 将检索结果与问题一起提交给模型
显示响应(包含来源引用)

关键点：

使用混合搜索(向量+关键词)提高相关性
维护聊天历史实现上下文感知
显示来源增强可信度

运行应用

启动应用
测试示例问题：
- "哪里可以看到建筑风格的度假地？"
- 后续问题："那里有什么住宿选择？"
观察模型如何基于索引数据生成回答

清理资源

完成测试后，请删除以下资源以避免不必要费用：

Azure AI搜索资源
Azure AI资源
相关资源组

总结

通过本文，您已经学会了如何在Azure AI Studio中：

部署必要的AI模型
准备和索引自定义数据
构建基于RAG模式的生成式AI应用
测试和验证解决方案

这种技术可以扩展到各种业务场景，帮助组织利用自有数据增强AI应用的能力。

登录后查看全文

在Azure AI Studio中使用自有数据构建生成式AI应用

概述

什么是检索增强生成(RAG)

环境准备

创建Azure AI Studio中心

模型部署

数据准备与索引

添加数据源

创建搜索索引

测试索引

构建RAG客户端应用

应用配置

代码解析

运行应用

清理资源

总结

热门内容推荐

最新内容推荐

项目优选

在Azure AI Studio中使用自有数据构建生成式AI应用

概述

什么是检索增强生成(RAG)

环境准备

创建Azure AI Studio中心

模型部署

数据准备与索引

添加数据源

创建搜索索引

测试索引

构建RAG客户端应用

应用配置

代码解析

运行应用

清理资源

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选