【亲测免费】 LLaSM 项目使用教程

2026-01-17 09:27:56作者：伍霜盼Ellen

1. 项目的目录结构及介绍

LLaSM 项目的目录结构如下：

LLaSM/
├── examples/
├── .gitignore
├── LICENSE
├── README.md
├── infer.py
├── infer_tokenize.py
├── llasm.py
├── logger.py
├── pyproject.toml

目录结构介绍

examples/: 包含项目的示例代码。
.gitignore: 指定 Git 版本控制系统忽略的文件和目录。
LICENSE: 项目的许可证文件，采用 Apache-2.0 许可证。
README.md: 项目的主文档，包含项目的基本信息和使用说明。
infer.py: 项目的推理脚本。
infer_tokenize.py: 用于推理的 tokenize 脚本。
llasm.py: 项目的主模块。
logger.py: 日志记录模块。
pyproject.toml: 项目配置文件，包含项目的依赖和构建配置。

2. 项目的启动文件介绍

项目的启动文件是 infer.py，该文件负责加载模型并进行推理。以下是 infer.py 的基本使用方法：

python infer.py \
  --input_audio_file PATH/TO/YOUR/AUDIO \
  --llasm_model PATH/TO/LLaSM/MODEL \
  --llasm_audio_tower PATH/TO/WHISPER/MODEL \
  --llm_type "Chinese_llama2" or "baichuan"

参数介绍

--input_audio_file: 指定输入音频文件的路径。
--llasm_model: 指定 LLaSM 模型的路径。
--llasm_audio_tower: 指定 Whisper 模型的路径。
--llm_type: 指定语言模型的类型，可选值为 "Chinese_llama2" 或 "baichuan"。

3. 项目的配置文件介绍

项目的配置文件是 pyproject.toml，该文件包含了项目的依赖和构建配置。以下是 pyproject.toml 的基本内容：

[tool.poetry]
name = "LLaSM"
version = "0.1.0"
description = "Large Language and Speech Model"
authors = ["LinkSoul-AI"]
license = "Apache-2.0"

[tool.poetry.dependencies]
python = "^3.10"
# 其他依赖项

[tool.poetry.dev-dependencies]
# 开发依赖项

[build-system]
requires = ["poetry-core>=1.0.0"]
build-backend = "poetry.core.masonry.api"