AI Iris Avatar项目部署与使用全指南

2025-06-12 10:23:20作者：邵娇湘

项目概述

AI Iris Avatar是一个结合大型语言模型(LLM)与3D虚拟形象的交互系统，通过Unity客户端实现可视化交互，Python服务端处理AI逻辑。项目核心功能包括：

本地运行的LLM对话系统
高质量的文本转语音(TTS)功能
3D虚拟形象的唇形同步
可扩展的交互系统

环境准备

1. 本地LLM模型管理(Ollama)

Ollama是本项目推荐的LLM模型管理工具，支持多种开源模型。

安装步骤：

下载并安装Ollama
拉取所需模型，例如Gemma 2B指令模型：
```
ollama pull gemma:2b-instruct
```

验证安装：

ollama show gemma:2b-instruct --modelfile
ollama run gemma:2b-instruct

2. Python服务端环境

要求Python 3.9-3.11版本（TTS库暂不支持Python 3.12）

配置步骤：

创建虚拟环境：
```
python3.11 -m venv .venv
```
激活环境：
```
source .venv/Scripts/activate
```
安装依赖：
```
pip install -r requirements.txt
```

(可选)安装CUDA版PyTorch加速TTS：

pip install torch==2.2.2+cu118 -f https://download.pytorch.org/whl/torch_stable.html

服务端启动与配置

基础启动

python.exe main.py serve --config "config_xtts.yaml"

首次运行会自动下载XTTS v2.0模型，启动后可通过浏览器访问控制面板。

配置详解

项目提供多个配置文件模板：

config_xtts.yaml：默认XTTS配置
config.example.yaml：完整配置示例

关键配置项：

llm.model：指定使用的LLM模型
tts.model_name：TTS模型选择
tts.speaker：语音角色选择
tts.language：语音语言设置

实用命令

列出可用TTS模型：
```
tts --list_models
```
生成语音样本测试：
```
make xtts-speak-test
```
列出XTTS可用说话人：
```
make xtts-list-speakers
```

Unity客户端使用

基础操作

导入Unity项目
打开OutdoorsScene场景
运行项目，客户端将自动连接Python服务端

唇形同步优化

项目集成了Oculus Lipsync技术，可通过调整以下参数优化效果：

形状关键帧插值方式
嘴型变化平滑度
特定音素(如m、b、p)的嘴型保持

构建发布

遵循Unity官方文档进行平台适配构建，支持多平台发布。

高级功能配置

1. 模型替换

LLM模型替换

通过Ollama拉取新模型
修改配置文件中的llm.model项
可能需要调整server/app_logic.py中的_exec_llm()函数

TTS模型替换

支持多种TTS模型：

XTTS v2.0（默认）
Bark
Tortoise-TTS
Glow/VITS等

修改配置文件中的tts.model_name即可切换。

2. 语音克隆

XTTS v2.0支持语音克隆功能：

准备目标语音的WAV样本
配置文件中设置tts.sample_of_cloned_voice_wav
注意这会增加推理时间

3. 性能优化

DeepSpeed加速

可提升TTS推理速度约2倍，配置要求：

CUDA版PyTorch
配置文件启用tts.deepspeed_enabled和tts.use_gpu
正确安装DeepSpeed

Windows安装提示：

需下载预编译的whl文件
匹配Python、CUDA和PyTorch版本

TTS流式处理

实现分块语音生成，减少首字延迟：

启用配置文件中的tts.streaming_enabled
可调整分块大小和交叉淡入淡出参数
需要足够GPU性能支持

常见问题解答

无响应问题

通常由VRAM不足引起：

关闭占用显存的其他应用
重启Ollama服务
监控显存使用情况
确认模型已正确加载

添加语音识别(STT)

项目本身不包含STT功能，但可通过以下方式扩展：

使用Whisper等语音识别模型
通过/prompt端点发送识别结果
集成到现有WebSocket通信流程中

唇形同步优化

调整Oculus Lipsync参数：

增加形状过渡平滑度
调整音素识别阈值
优化嘴型保持参数

扩展开发

外部触发动作

Unity客户端通过WebSocket与服务器通信，扩展流程：

添加新的消息处理器
定义消息类型和数据结构
在Unity中实现对应动作响应

示例代码结构参考WebSocketMsgHandler.cs实现。

自定义语音处理

可通过PyDub库对TTS输出进行后处理：

音高调整
语速变化
音频剪辑等

结语

AI Iris Avatar项目提供了完整的本地AI虚拟形象解决方案，通过灵活的配置和扩展接口，开发者可以构建个性化的交互体验。从基础的对话功能到高级的语音克隆和性能优化，项目为不同需求提供了多种实现路径。

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

140

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

556

111

AI Iris Avatar项目部署与使用全指南

项目概述

环境准备

1. 本地LLM模型管理(Ollama)

2. Python服务端环境

服务端启动与配置

基础启动

配置详解

实用命令

Unity客户端使用

基础操作

唇形同步优化

构建发布

高级功能配置

1. 模型替换

LLM模型替换

TTS模型替换

2. 语音克隆

3. 性能优化

DeepSpeed加速

TTS流式处理

常见问题解答

无响应问题

添加语音识别(STT)

唇形同步优化

扩展开发

外部触发动作

自定义语音处理

结语

相关内容推荐

最新内容推荐

项目优选