Android Voice Activity Detection (VAD) 使用指南

2026-01-14 17:40:56作者：裘晴惠Vivianne

本教程将指导您如何理解和操作gkonovalov/android-vad这个开源项目，它是一个用于Android平台的实时语音活动检测库，包含了多种VAD模型，如WebRTC VAD、Silero VAD和Yamnet VAD，适用于实时音频处理和噪音过滤。

1. 项目目录结构及介绍

android-vad/
├── example               # 示例应用，展示了如何集成并使用VAD
│   ├── src/main          # 示例应用的主代码目录
│   └── ...               # 其他构建相关文件
├── gradle                # Gradle脚本和配置文件
│   ├── wrapper           # Gradle Wrapper相关文件
├── gitignore             # Git忽略文件列表
├── LICENSE               # 许可证文件
├── README.md             # 项目介绍和快速入门文档
├── build.gradle          # 主构建文件
├── gradle.properties     # Gradle属性配置
├── settings.gradle       # 设置文件
├── silero                # Silero VAD相关的源码和资源
├── utils                 # 工具类和辅助函数
├── webrtc                # WebRTC VAD模块
└── yamnet                # Yamnet VAD模块

每个子目录对应不同的模块和功能，比如webrtc、silero、和yamnet分别包含了对应的VAD模型实现，而example则提供了集成该库到应用中的示例。

2. 项目的启动文件介绍

虽然此项目没有单一的“启动文件”概念，但在实际开发中，集成的关键通常是在您的应用程序中初始化VAD对象。例如，如果您选择使用WebRTC VAD，核心交互可能发生在类似这样的Java或Kotlin初始化逻辑中：

// Java示例
VadWebRTC vad = Vad.builder()
    .setSampleRate(SampleRate.SAMPLE_RATE_16K)
    .setFrameSize(FrameSize.FRAME_SIZE_320)
    .setMode(Mode.VERY_AGGRESSIVE)
    .setSilenceDurationMs(300)
    .setSpeechDurationMs(50)
    .build();
boolean isSpeech = vad.isSpeech(audioData);
vad.close();

// Kotlin示例
VadWebRTC(
    sampleRate = SampleRate.SAMPLE_RATE_16K,
    frameSize = FrameSize.FRAME_SIZE_320,
    mode = Mode.VERY_AGGRESSIVE,
    silenceDurationMs = 300,
    speechDurationMs = 50
).use { vad ->
    val isSpeech = vad.isSpeech(audioData)
}

上述代码需在您的应用适当位置调用，根据实际情况调整参数。