Step-Audio 项目使用教程

2026-01-30 05:02:36作者：羿妍玫Ivan

1. 项目的目录结构及介绍

Step-Audio 是一个开源的智能语音交互框架，其目录结构如下：

Step-Audio/
├── assets/              # 存放项目相关的资源文件
├── cosyvoice/           # CosyVoice 相关文件
├── examples/            # 项目使用示例
├── funasr_detach/       # FunASR 识别分离相关文件
├── speakers/            # 语音合成相关的演讲者数据
├── .gitattributes       # Git 属性配置文件
├── .gitignore           # Git 忽略文件
├── Dockerfile           # Docker 容器构建文件
├── Dockerfile-vllm      # vLLM Docker 容器构建文件
├── LICENSE              # 开源协议文件
├── README.md            # 项目说明文件
├── README_CN.md         # 项目说明文件（中文版）
├── README_JP.md         # 项目说明文件（日文版）
├── __init__.py          # Python 初始化文件
├── app.py               # 项目主应用文件
├── call_vllm_chat.py    # 调用 vLLM 聊天功能的脚本
├── offline_inference.py # 离线推理脚本
├── requirements-vllm.txt # vLLM 相关依赖文件
├── requirements.txt     # 项目依赖文件
├── stepaudio.py         # StepAudio 核心文件
├── tokenizer.py         # 分词器相关文件
├── tts.py               # 文本到语音合成相关文件
├── tts_app.py           # 语音合成应用相关文件
├── tts_inference.py     # 语音合成推理脚本
└── utils.py            # 工具类文件

2. 项目的启动文件介绍

项目的启动文件是 app.py，它负责初始化并运行 Step-Audio 的核心功能。以下是启动文件的基本结构和功能：

# 导入必要的模块
from flask import Flask
from stepaudio import StepAudio

# 创建 Flask 应用
app = Flask(__name__)

# 初始化 StepAudio
step_audio = StepAudio()

# 定义路由和视图函数
@app.route('/')
def index():
    # 返回首页内容
    return "Step-Audio 服务正在运行"

# 启动应用
if __name__ == '__main__':
    app.run(host='0.0.0.0', port=7860)