terraform-genai-knowledge-base 的项目扩展与二次开发

2025-06-09 17:00:45作者：尤峻淳Whitney

项目的基础介绍

terraform-genai-knowledge-base 是一个开源项目，旨在通过使用生成式AI技术，从文档中提取问答对，并对大型语言模型（LLM）进行微调，以实现对文档内容的自动问答。该项目由Google Cloud Platform提供，采用Apache-2.0协议开源，允许用户自由使用、修改和分享。

项目的核心功能

文档处理：上传新文档触发云端函数，通过Document AI服务提取文档中的文字内容。
索引构建：提取的文本内容被索引并存储在Vector Search中，便于后续快速检索。
问答生成：利用Vertex AI的大型语言模型，根据文档内容生成问题和答案对。
数据存储：生成的问题和答案对存储在Firestore数据库中。
模型微调：基于Firestore中的数据，对LLM模型进行微调，并部署到模型仓库。

项目使用了哪些框架或库？

Terraform：用于部署和配置Google Cloud资源。
Google Cloud Providers：如Google Cloud Storage、Firestore、Document AI等，为项目提供必要的云服务。
Python：用于编写数据处理和模型训练的脚本。
Jupyter Notebook：用于模型开发和结果展示。
Shell和Makefile：用于自动化任务和项目管理。

项目的代码目录及介绍

.
├── .github/              # GitHub配置文件，如工作流、代码所有权等
├── assets/               # 存储项目相关资源
├── build/                # 构建脚本和配置文件
├── docs/                 # 项目文档
├── examples/             # 使用示例
├── mim/                  # 可能包含项目依赖和初始化脚本
├── notebooks/            # Jupyter笔记本，用于数据处理和模型训练
├── test/                 # 测试代码和测试数据
├── webhook/              # 云函数触发器相关脚本
├── .dockerignore         # Docker构建时排除的文件
├── .flake8               # Python代码风格配置文件
├── .gitignore            # Git忽略文件配置
├── CHANGELOG.md          # 更新日志
├── CODEOWNERS            # 代码所有者文件
├── CONTRIBUTING.md       # 贡献指南
├── LICENSE               # 开源协议文件
├── Makefile              # Makefile构建脚本
├── README.md             # 项目说明文件
├── SECURITY.md           # 安全策略文件
├── initial-index.json    # 初始索引文件
├── main.tf               # Terraform主配置文件
├── metadata.display.yaml # 元数据展示配置
├── metadata.yaml         # 元数据配置
├── outputs.tf            # Terraform输出配置
├── variables.tf          # Terraform变量配置
├── versions.tf           # 版本配置