ai-iris-avatar 项目亮点解析

2025-06-12 07:09:20作者：韦蓉瑛

项目基础介绍

ai-iris-avatar 是一个开源项目，旨在通过大型语言模型（LLM）、文本转语音（TTS）、Unity 游戏引擎和唇语同步技术，创造一个可以与用户交流的详细 3D 虚拟角色。该项目允许用户与 AI 驱动的 3D 虚拟角色进行对话，并且可以定制化角色的外观、语言模型以及语音。

项目代码目录及介绍

项目的代码目录结构清晰，主要包括以下几个部分：

server/：包含 Python 服务器代码，用于处理用户输入、生成回复以及音频流。
unity-project/：Unity 项目文件夹，包含角色的 3D 模型、动画以及与服务器通信的客户端代码。
.gitignore：指定 Git 忽略的文件。
INSTALL_AND_USAGE.md：安装和使用说明文件。
LICENSE.md：项目使用的 GPL-3.0 许可证。
README.md：项目介绍和功能说明。
config.example.yaml、config_xtts.yaml：配置文件示例。
main.py：项目的主要 Python 脚本。
makefile：构建文件。
requirements.txt：项目依赖的 Python 包列表。
xtts_scripts.py：文本转语音相关脚本。

项目亮点功能拆解

本地运行：项目可以在用户的硬件上本地运行，无需互联网连接。
完全可配置：用户可以自由更换语言模型、语音、3D 模型等。
使用无审查模型：用户可以选择不受审查的语言模型，以便自由讨论各种话题。
自定义知识库：可以为语言模型添加自定义知识库，提供更加个性化的回答。
聊天上下文：系统会根据之前的对话内容来影响后续的回答。
多种语音选择：提供多种男女声选择，甚至支持语音克隆。
快速响应：使用 TTS 和 DeepSpeed 技术，响应时间少于 4 秒。
Unity 引擎：利用 Unity 强大的游戏引擎功能。
唇语同步：自动 mouth movement，使得角色说话时的嘴型更加自然。
3D 骨骼动画：使用 Unity 的 mecanim 系统进行动画处理。
远程事件触发：可以通过网页端的按钮触发远程事件，如粒子效果等。
丰富的角色交互：包括眼睛控制、头发物理效果、眨眼等细节。

项目主要技术亮点拆解

TTS 和 DeepSpeed：使用文本转语音技术结合 DeepSpeed 库，提高响应速度和效率。
WebSocket 通信：Unity 客户端与 Python 服务器之间的通信通过 WebSocket 实现。
Oculus Lipsync：利用 Oculus 的唇语同步库来匹配角色的嘴型和语音。
** Mecanim 系统**：Unity 的动画系统，用于处理角色的各种动作和状态。
粒子效果：基于 Unity 的粒子系统，可以创建丰富的视觉效果。

与同类项目对比的亮点

ai-iris-avatar 与同类项目相比，具有以下亮点：

高度可定制性：用户可以根据自己的需求更换不同的模型、语言模型和语音。
无审查模型：提供了不受审查的语言模型，满足用户自由交流的需求。
本地运行：本地运行减少了对外部服务的依赖，提高了隐私性和稳定性。
快速响应：结合 DeepSpeed 技术的快速文本转语音功能，使得对话体验更加流畅。

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统