【亲测免费】 BS-RoFormer音乐源分离技术文档

2026-01-25 06:01:02作者：薛曦旖Francesca

BS-RoFormer是ByteDance AI Labs提出的用于音乐源分离的最先进的注意力网络实现。此模型通过轴向注意力在频率（多频带）和时间上操作，采用旋转位置编码显著提高了性能，并支持立体声音训练及多个音轨输出。以下是对该项目的详细技术文档。

安装指南

您可以通过pip轻松安装BS-RoFormer库：

pip install BS-RoFormer

确保您的Python环境已设置好，并且pip为最新版本。

项目使用说明

初始化模型

BS-RoFormer模型可以按需实例化，示例如下：

import torch
from bs_roformer import BSRoformer

# 创建一个BS-RoFormer模型实例
model = BSRoformer(dim=512, depth=12, time_transformer_depth=1, freq_transformer_depth=1)

# 输入数据预处理，此处的x应根据实际情况调整尺寸
x = torch.randn(2, 352800)  # 假设输入音频特征
target = torch.randn(2, 352800)  # 目标输出，如果是训练阶段必需

# 计算损失进行反向传播（仅在训练时需要）
loss = model(x, target=target)
loss.backward()

如果您想使用后续论文中的梅尔频带RoFormer（Mel-Band RoFormer），只需导入相应的类并创建模型：

from bs_roformer import MelBandRoformer

model = MelBandRoformer(dim=32, depth=1, time_transformer_depth=1, freq_transformer_depth=1)

运行预测

经过训练后，您可以使用模型进行预测：

# 假定已经过充分训练
output = model(x)

项目API使用文档

BSRoformer 和 MelBandRoformer 类提供了主要接口，它们都接受模型参数如维度(dim)、深度(depth)等。
模型的前向传递函数 .forward() 或简写的调用形式（如上述代码所示）接受输入张量 x 及可选的目标张量 target 用于训练过程中的损失计算。
对于预测，直接调用模型实例即可得到输出，无需提供目标张量。