5分钟轻松掌握SAM-Audio：用文本指令精准提取目标声音

2026-04-23 11:54:17作者：咎岭娴Homer

The repository provides code for running inference with the Meta Segment Anything Audio Model (SAM-Audio), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.

项目地址：https://gitcode.com/gh_mirrors/sa/sam-audio

在音频处理领域，如何快速从复杂音频中分离出特定声音一直是困扰新手的难题。Meta推出的Segment Anything Audio（SAM-Audio）模型通过文本提示功能，让用户只需输入自然语言描述，就能精准分离目标声音，彻底改变了传统音频编辑的复杂流程。本文将带你零基础入门，通过简单三步完成音频分离任务，让每个人都能轻松驾驭这一强大工具。

🔍 认识SAM-Audio：让声音分离像说话一样简单

SAM-Audio是一款革命性的音频分割模型，其核心优势在于支持文本提示交互。用户无需掌握专业音频编辑技能，只需用日常语言描述目标声音（如"提取钢琴声"或"分离狗叫声"），模型就能自动识别并分离出相应的音频成分。这种直观的操作方式极大降低了音频处理的门槛，无论是内容创作、音乐制作还是语音研究，都能从中受益。

SAM-Audio模型架构展示了文本提示如何与音频、视觉信息融合，实现精准声音分离

🛠️ 零基础环境配置：3步完成安装部署

1. 获取项目代码

首先需要将项目仓库克隆到本地，打开终端执行以下命令：

git clone https://gitcode.com/gh_mirrors/sa/sam-audio
cd sam-audio

2. 安装依赖包

进入项目目录后，使用pip安装所需依赖：

pip install .

3. 验证安装结果

安装完成后，可通过运行示例笔记本验证环境是否配置成功。项目提供了专门的文本提示演示文件，路径为：examples/text_prompting.ipynb

🚀 实战操作：从示例到自定义的音频分离之旅

快速体验示例音频分离

打开examples/text_prompting.ipynb笔记本后，按照以下步骤操作：

运行"加载示例音频"单元格，系统会自动加载预设的混合音频文件
在文本提示框中输入"dog barking"（狗叫声）
执行推理代码单元格，模型将自动处理并生成分离结果
通过笔记本中的音频播放器聆听分离后的目标声音

处理个人音频文件

要分离自己的音频文件，只需修改示例代码中的两个部分：

将音频加载路径替换为你的文件路径
更改文本提示内容以匹配你想要提取的声音例如，若要提取演讲中的人声，可将文本提示改为"演讲者的声音"

💡 进阶提示词策略：让分离效果更上一层楼

精准描述三要素

声音主体：明确指出目标声音的发出者，如"小提琴"而非"乐器"
特征修饰：添加声音的特性描述，如"低沉的男性嗓音"
上下文信息：包含时间或场景信息，如"30秒处的汽车鸣笛"

复杂场景处理技巧

当音频中存在多种相似声音时，可尝试以下方法：

时间限定："前20秒的钢琴声"
排除法："除了鼓之外的所有乐器"
层级分离：先分离大类（如"所有乐器"），再从结果中进一步分离特定乐器

🌟 场景化应用案例：SAM-Audio的实际价值

播客制作场景

播客录制时常混入环境噪音，使用SAM-Audio只需输入"去除空调噪音保留人声"，即可快速获得清晰的语音内容，省去繁琐的降噪步骤。

音乐学习场景

音乐爱好者想学习某段吉他独奏，只需输入"提取电吉他部分"，就能得到纯净的吉他音轨，方便反复聆听练习。

视频剪辑场景

视频创作者需要为画面匹配特定音效，通过"分离背景中的雨声"，可轻松获取所需环境音素材，提升视频制作效率。

📖 资源与学习路径

项目提供了丰富的学习资源帮助用户深入掌握SAM-Audio：

完整示例代码：examples/
模型核心实现：sam_audio/model/
评估指标代码：eval/metrics/

通过这些资源，用户可以逐步了解模型原理，探索更多高级用法，实现从基础应用到自定义开发的进阶。SAM-Audio将持续迭代更新，为音频处理领域带来更多可能性。

现在就动手尝试，体验用文字指挥AI分离声音的神奇效果吧！无论是专业音频编辑还是业余爱好者，都能在SAM-Audio的帮助下，轻松完成以前需要专业技能的音频分离任务。

sam-audio

项目地址：https://gitcode.com/gh_mirrors/sa/sam-audio

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

454

436

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

5分钟轻松掌握SAM-Audio：用文本指令精准提取目标声音

🔍 认识SAM-Audio：让声音分离像说话一样简单