AIri本地部署零门槛完全指南：从环境搭建到离线交互全流程

2026-03-09 04:43:11作者：钟日瑜

💖🧸 Self hosted, you-owned Grok Companion, a container of souls of waifu, cyber livings to bring them into our worlds, wishing to achieve Neuro-sama's altitude. Capable of realtime voice chat, Minecraft, Factorio playing. Web / macOS / Windows supported.

项目地址：https://gitcode.com/GitHub_Trending/ai/airi

在数字时代，我们越来越依赖AI驱动的虚拟角色进行日常交互，但网络不稳定和隐私安全问题常常成为使用阻碍。本地部署LLM模型实现AIri的离线运行，不仅能突破网络限制，还能确保数据完全掌控在自己手中。本文将带你从零开始，通过分阶段实施，在个人设备上构建一个功能完整的离线AI伙伴系统，让AIri真正做到"永远在线，永不泄露"。

[问题引入]：为什么需要本地部署LLM模型

想象这样的场景：你正在与AIri进行重要对话时突然断网，或者你希望讨论一些敏感话题但担心云端数据安全。本地部署LLM（大语言模型）正是解决这些痛点的最佳方案。通过在个人设备上运行AI模型，你可以获得：

完全离线运行：不受网络状况影响，随时随地与AIri交互
数据隐私保护：所有对话和个人信息均存储在本地
自定义优化：根据硬件条件调整模型参数，平衡性能与效果
低延迟响应：无需等待网络传输，交互体验更加流畅

对于AIri这样基于Live2D/VRM技术的虚拟角色而言，本地部署尤为重要——它能确保角色动画、语音交互等实时性要求高的功能不受网络波动影响，提供更加自然的陪伴体验。

[核心价值]：本地部署方案技术选型对比

在开始部署前，了解不同方案的优缺点有助于你做出最适合自己的选择。目前主流的本地LLM部署方案有以下三种：

Ollama方案

核心特点：轻量级模型管理工具，支持一键部署主流LLM

✅ 优势：安装简单，模型库丰富，资源占用可控
❌ 局限：高级配置选项较少，自定义模型支持有限
⚡ 适用场景：个人用户、新手入门、中等配置设备

MCP服务器方案

核心特点：AIri项目专用模型控制协议，深度优化集成

✅ 优势：与AIri功能无缝衔接，支持多模型协同工作
❌ 局限：仅限AIri项目使用，需要Rust编译环境
⚡ 适用场景：AIri深度用户，需要完整功能体验

容器化方案（Docker+模型服务）

核心特点：通过容器隔离运行环境，标准化部署流程

✅ 优势：环境一致性好，支持多模型并行部署
❌ 局限：资源开销较大，需要容器技术基础
⚡ 适用场景：开发环境，多模型测试，服务器级部署

[!TIP] 对于大多数用户，建议优先尝试Ollama方案，它提供了最佳的易用性和兼容性。如果你是技术爱好者或需要定制化功能，可以考虑MCP服务器方案。

[分阶段实施]：从零开始的本地部署之旅

[环境准备]：轻量级依赖配置

准备条件：

处理器：至少8核CPU（推荐12核及以上）
内存：16GB以上RAM（模型加载需要大量内存）
显卡：NVIDIA GPU（8GB以上显存，支持CUDA加速）
存储：至少50GB可用空间（用于项目文件和模型存储）
操作系统：Linux（Ubuntu 20.04+）、Windows 10/11或macOS 12+

操作要点：

安装基础工具链

# Ubuntu/Debian系统
sudo apt update && sudo apt install -y git curl build-essential

# macOS系统（需要先安装Homebrew）
brew install git curl

# Windows系统建议使用WSL2或直接安装Git Bash

配置Node.js环境

# 安装nvm（Node版本管理器）
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.3/install.sh | bash

# 安装Node.js v18 LTS版本
nvm install 18 && nvm use 18

# 安装pnpm包管理器
npm install -g pnpm

安装Rust工具链（用于MCP服务器编译）

# Linux/macOS系统
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

# Windows系统
# 从 https://www.rust-lang.org/tools/install 下载安装程序

克隆项目仓库

git clone https://gitcode.com/GitHub_Trending/ai/airi
cd airi

验证方式：运行以下命令检查依赖是否安装成功：

node -v  # 应显示v18.x.x
pnpm -v  # 应显示7.x.x或更高版本
cargo -V  # 应显示cargo 1.x.x

[模型部署]：本地LLM服务搭建

准备条件：

稳定的网络连接（仅用于下载模型，后续可离线运行）
至少10GB空闲存储空间（单个模型通常为3-8GB）
管理员权限（用于安装系统服务）

操作要点：

Ollama安装与配置

# Linux系统
curl https://ollama.ai/install.sh | sh

# macOS系统
# 从 https://ollama.com/download 下载.dmg安装包

# Windows系统
# 从 https://ollama.com/download 下载.exe安装包

启动Ollama服务

# Linux/macOS系统
ollama serve &

# Windows系统
# 在开始菜单找到Ollama应用并启动

下载推荐模型

# 下载嵌入模型（用于语义理解）
ollama pull nomic-embed-text

# 下载对话模型（根据硬件选择）
# 低配设备（8GB显存）
ollama pull mistral:7b

# 中配设备（12GB显存）
ollama pull llama2:13b

# 高配设备（24GB+显存）
ollama pull mixtral:8x7b

验证模型服务

# 测试模型响应
ollama run mistral "你好，能介绍一下自己吗？"

验证方式：如果模型能返回类似以下的响应，则表示部署成功：

我是由Mistral AI开发的语言模型。我可以回答问题、提供信息、帮助完成各种任务，包括写作、编程辅助、创意生成等。有什么我可以帮助你的吗？

[系统集成]：AIri项目配置与依赖安装

准备条件：

已完成前面的环境准备和模型部署步骤
项目代码已克隆到本地

操作要点：

安装项目依赖

# 在项目根目录执行
pnpm install

配置环境变量

# 复制环境变量示例文件
cp .env.example .env.local

# 使用文本编辑器打开.env.local
# Linux/macOS系统
nano .env.local

# Windows系统
notepad .env.local

修改关键配置项

# 设置本地LLM API地址（Ollama默认地址）
LLM_API_BASE_URL='http://localhost:11434/v1/'

# 设置使用的本地模型名称
LLM_MODEL='mistral:7b'  # 根据你下载的模型修改

# 配置嵌入模型
EMBEDDING_API_BASE_URL='http://localhost:11434/v1/'
EMBEDDING_MODEL='nomic-embed-text'

# 禁用远程资源加载
LOAD_REMOTE_RESOURCES=false

构建项目
```
# 构建所有模块
pnpm run build
```

验证方式：检查构建过程是否有错误输出，成功后会显示类似以下信息：

Build completed successfully in 3m45s

[模块配置]：核心功能组件启用

[音频处理]：本地语音交互配置

适用场景：需要语音对话功能的用户，支持麦克风输入和语音合成输出

准备条件：

麦克风设备（用于语音输入）
扬声器设备（用于语音输出）

操作要点：

进入音频模块目录
```
cd apps/stage-web
```
安装音频处理依赖
```
pnpm install @ai/airi-audio
```

配置本地音频服务

# 创建音频服务配置文件
cp src/config/audio.example.ts src/config/audio.ts

# 编辑配置文件
nano src/config/audio.ts

修改配置内容

export const audioConfig = {
  // 使用本地语音识别服务
  speechToText: {
    provider: 'local',
    endpoint: 'http://localhost:3000/api/asr',
    language: 'zh-CN'
  },
  
  // 使用本地语音合成服务
  textToSpeech: {
    provider: 'local',
    endpoint: 'http://localhost:3000/api/tts',
    voice: 'default'
  }
};

验证方式：启动音频测试服务：

pnpm run test:audio

按照提示进行语音输入，检查是否能正确识别并合成语音输出。

[前端界面]：本地Web界面配置

适用场景：所有用户，通过浏览器访问AIri虚拟角色界面

准备条件：

已完成项目构建
现代浏览器（Chrome、Firefox、Edge等）

操作要点：

进入前端应用目录
```
cd apps/stage-web
```
创建前端环境配置
```
cp .env.example .env.local
```

配置本地API地址

# 编辑.env.local文件
VITE_API_BASE_URL=http://localhost:8080/api
VITE_WS_BASE_URL=ws://localhost:8080/ws
VITE_OFFLINE_MODE=true

启动开发服务器
```
pnpm dev
```

验证方式：打开浏览器访问 http://localhost:5173，如果能看到AIri的虚拟角色界面，则表示配置成功。

[场景验证]：离线功能完整测试

[基础验证]：文本对话功能测试

操作步骤：

启动后端服务

# 在项目根目录执行
pnpm run server:start

启动前端应用（如未启动）
```
cd apps/stage-web
pnpm dev
```
在浏览器中访问 http://localhost:5173
在聊天框中输入"你好，我是离线模式"并发送

预期结果： AIri应在几秒内回复消息，且所有网络请求均指向本地地址（可通过浏览器开发者工具的网络面板确认）。

[进阶验证]：语音交互与角色动画

操作步骤：

确保麦克风已连接并授权浏览器访问
点击界面上的麦克风图标开始录音
说出"你能做什么？"并等待识别完成
观察AIri的回应和角色动画

预期结果：系统应正确识别语音指令，AIri以语音方式回应，同时伴随相应的角色表情和动作。

[离线验证]：断网状态测试

操作步骤：

保持AIri服务运行
断开网络连接（关闭WiFi或拔掉网线）
尝试与AIri进行多轮对话

预期结果：即使在完全断网状态下，所有功能应保持正常工作，不会出现加载失败或连接错误。

[进阶优化]：提升本地部署体验

[性能调优]：根据硬件配置优化

低配设备推荐方案（8GB内存，无独立显卡）：

使用更小的模型：ollama pull mistral:7b-q4_0（4位量化版本）
关闭动画效果：在设置中禁用角色动画
减少并行任务：关闭其他应用程序，为AIri保留更多资源

中配设备优化方案（16GB内存，8GB显存）：

启用模型缓存：export OLLAMA_CACHE_DIR=/path/to/fast/drive
调整推理参数：在配置文件中设置temperature=0.7和max_tokens=1024
启用GPU加速：确保CUDA驱动已正确安装

高配设备增强方案（32GB内存，16GB+显存）：

使用更大模型：ollama pull llama3:70b
启用多模型协作：同时运行对话模型和专门的工具调用模型
配置模型热加载：修改MCP服务器配置实现模型快速切换

[功能扩展]：自定义技能开发

AIri支持通过插件系统扩展功能，你可以尝试开发本地技能：

创建插件目录

mkdir -p plugins/airi-plugin-local-skills/src

编写简单技能

// plugins/airi-plugin-local-skills/src/index.ts
import { Plugin, registerPlugin } from '@ai/airi-plugin-sdk';

class LocalSkillsPlugin extends Plugin {
  constructor() {
    super('local-skills');
  }
  
  async initialize() {
    this.registerCommand('local-time', async () => {
      const now = new Date();
      return `当前本地时间：${now.toLocaleString()}`;
    });
  }
}

registerPlugin(new LocalSkillsPlugin());

配置并启用插件

# 编辑配置文件启用插件
echo 'PLUGINS=local-skills' >> .env.local

[故障排查]：常见问题解决流程

当遇到问题时，可按照以下流程排查：

检查服务状态
- Ollama服务是否运行：ollama ps（Linux/macOS）
- API服务是否正常：访问 http://localhost:8080/api/health
查看日志信息
- 后端日志：tail -f logs/server.log
- 前端日志：浏览器开发者工具 > 控制台
- 模型日志：journalctl -u ollama（Linux系统）
逐步验证组件
- 模型独立测试：ollama run <model-name>
- API端点测试：curl http://localhost:11434/v1/models
- 前端连接测试：检查网络请求状态码
常见问题解决方案
- 模型加载失败：检查磁盘空间，尝试 smaller 模型
- API连接错误：确认服务端口是否被占用，尝试重启服务
- 语音识别问题：检查麦克风权限，测试系统录音功能