gemini-2.5-ai-engineering-workshop 的项目扩展与二次开发

2025-06-05 18:27:57作者：滑思眉Philip

项目的基础介绍

gemini-2.5-ai-engineering-workshop 是一个开源项目，旨在教授开发者如何使用 Google Gemini 2.5 模型家族构建高级 AI 应用程序，重点关注构建代理 AI 系统的实际工程技能。该项目提供了丰富的学习资料和练习，帮助开发者掌握从文本生成到多模态处理的各种能力。

项目的核心功能

项目的主要功能包括：

文本生成与聊天：基本文本生成、多轮对话、系统指令和模型配置、长上下文处理等。
多模态能力：图像理解与分析、音频处理、视频理解、文档处理、文本到语音生成和图像生成。
结构化输出与工具调用：使用 Pydantic schema 进行结构化输出、调用外部 API 和工具、自动函数调用等。
模型上下文协议（MCP）：介绍 MCP，构建交互式聊天代理等。

项目使用了哪些框架或库？

该项目主要使用了以下框架和库：

Google Gemini 2.5 API：用于构建 AI 应用程序的核心。
Python SDK (google-genai)：Google 提供的 Python 库，用于与 Gemini API 交互。
Pydantic：用于数据验证和设置管理的数据类库。
其他可能使用的库还包括 Jupyter Notebook 用于编写和执行代码、处理图像和音频的库等。

项目的代码目录及介绍

项目的代码目录结构如下：

gemini-2.5-ai-engineering-workshop/
├── assets/              # 存储项目相关的资源文件
├── notebooks/           # 包含工作坊的笔记本和练习
├── solutions/           # 包含练习的解决方案
├── .gitignore           # 指定 Git 忽略的文件和目录
├── LICENSE              # 项目使用的 Apache-2.0 许可证文件
├── README.md            # 项目说明文件