零成本音频方案：xiaozhi-esp32纯软件编解码技术详解

2026-02-04 05:22:09作者：胡易黎Nicole

你还在为嵌入式项目中的音频处理模块成本过高而烦恼吗？还在纠结专用编解码器芯片带来的硬件复杂性吗？本文将带你探索xiaozhi-esp32项目中创新的"No Audio Codec"技术，仅用软件实现音频输入输出，彻底摆脱硬件依赖，降低开发成本与复杂度。读完本文，你将掌握纯软件音频处理的核心原理、实现方式及应用场景，轻松构建低成本语音交互设备。

技术原理：软件如何替代硬件编解码器？

传统音频处理方案中，通常需要专用的音频编解码器芯片（Codec）来处理模拟信号与数字信号的转换。而xiaozhi-esp32项目创新性地提出了"No Audio Codec"方案，直接利用ESP32芯片的I2S（集成电路内置音频总线，Inter-IC Sound）接口和PDM（脉冲密度调制，Pulse Density Modulation）技术，通过软件算法实现音频信号的采集与播放，完全省去了硬件编解码器。

核心实现架构

NoAudioCodec技术的核心在于通过软件实现了传统硬件编解码器的核心功能，主要包括以下几个关键类：

NoAudioCodec：基础类，提供音频读写接口
NoAudioCodecDuplex：全双工实现，支持同时录音和播放
NoAudioCodecSimplex：半双工实现，分离的录音和播放通道
NoAudioCodecSimplexPdm：PDM模式实现，适用于数字麦克风

这些类定义在main/audio/codecs/no_audio_codec.h头文件中，通过继承AudioCodec基类，统一了音频处理接口，使得纯软件实现可以无缝替换传统硬件编解码器。

信号处理流程

纯软件音频处理的信号流程主要包括以下步骤：

音频采集：通过PDM麦克风或模拟麦克风获取音频信号，经I2S接口传输到ESP32
数据转换：软件算法将PDM信号转换为PCM（脉冲编码调制，Pulse Code Modulation）格式
音量控制：通过软件实现音量调节，避免硬件音量控制的复杂性
音频输出：将处理后的PCM数据通过I2S接口发送到扬声器

代码实现：关键技术解析

NoAudioCodec的实现代码主要位于main/audio/codecs/no_audio_codec.h和main/audio/codecs/no_audio_codec.cc文件中。下面我们深入分析几个核心技术点。

I2S接口配置

ESP32的I2S接口配置是实现纯软件音频处理的基础。以下代码片段展示了如何配置I2S接口实现全双工音频传输：

i2s_chan_config_t chan_cfg = {
    .id = I2S_NUM_0,
    .role = I2S_ROLE_MASTER,
    .dma_desc_num = AUDIO_CODEC_DMA_DESC_NUM,
    .dma_frame_num = AUDIO_CODEC_DMA_FRAME_NUM,
    .auto_clear_after_cb = true,
    .auto_clear_before_cb = false,
    .intr_priority = 0,
};
ESP_ERROR_CHECK(i2s_new_channel(&chan_cfg, &tx_handle_, &rx_handle_));

i2s_std_config_t std_cfg = {
    .clk_cfg = {
        .sample_rate_hz = (uint32_t)output_sample_rate_,
        .clk_src = I2S_CLK_SRC_DEFAULT,
        .mclk_multiple = I2S_MCLK_MULTIPLE_256,
    },
    .slot_cfg = {
        .data_bit_width = I2S_DATA_BIT_WIDTH_32BIT,
        .slot_bit_width = I2S_SLOT_BIT_WIDTH_AUTO,
        .slot_mode = I2S_SLOT_MODE_MONO,
        .slot_mask = I2S_STD_SLOT_LEFT,
        .ws_width = I2S_DATA_BIT_WIDTH_32BIT,
        .ws_pol = false,
        .bit_shift = true,
    },
    .gpio_cfg = {
        .mclk = I2S_GPIO_UNUSED,
        .bclk = bclk,
        .ws = ws,
        .dout = dout,
        .din = din,
        .invert_flags = {
            .mclk_inv = false,
            .bclk_inv = false,
            .ws_inv = false
        }
    }
};
ESP_ERROR_CHECK(i2s_channel_init_std_mode(tx_handle_, &std_cfg));
ESP_ERROR_CHECK(i2s_channel_init_std_mode(rx_handle_, &std_cfg));

音量控制实现

传统硬件编解码器通常通过I2C接口控制音量，而NoAudioCodec方案直接在软件中实现音量调节，避免了复杂的硬件配置：

int NoAudioCodec::Write(const int16_t* data, int samples) {
    std::lock_guard<std::mutex> lock(data_if_mutex_);
    std::vector<int32_t> buffer(samples);

    // 音量计算：将0-100的音量值转换为增益因子
    int32_t volume_factor = pow(double(output_volume_) / 100.0, 2) * 65536;
    for (int i = 0; i < samples; i++) {
        int64_t temp = int64_t(data[i]) * volume_factor; // 使用int64_t避免溢出
        // 限幅处理，防止音频失真
        if (temp > INT32_MAX) {
            buffer[i] = INT32_MAX;
        } else if (temp < INT32_MIN) {
            buffer[i] = INT32_MIN;
        } else {
            buffer[i] = static_cast<int32_t>(temp);
        }
    }

    size_t bytes_written;
    ESP_ERROR_CHECK(i2s_channel_write(tx_handle_, buffer.data(), samples * sizeof(int32_t), &bytes_written, portMAX_DELAY));
    return bytes_written / sizeof(int32_t);
}

这段代码实现了音量的软件调节，通过对每个音频样本乘以音量因子来实现音量变化。采用平方关系（pow函数）模拟人耳对音量的非线性感知，使音量调节更加自然。

PDM数据读取与处理

对于PDM格式的数字麦克风，NoAudioCodecSimplexPdm类提供了专门的支持：

int NoAudioCodecSimplexPdm::Read(int16_t* dest, int samples) {
    size_t bytes_read;

    // PDM解调后的数据位宽为16位，直接读取到目标缓冲区
    if (i2s_channel_read(rx_handle_, dest, samples * sizeof(int16_t), &bytes_read, portMAX_DELAY) != ESP_OK) {
        ESP_LOGE(TAG, "Read Failed!");
        return 0;
    }

    samples = bytes_read / sizeof(int16_t);
    if (input_gain_ > 0) {
        int gain_factor = (int)input_gain_;
        for (int i = 0; i < samples; i++) {
            int32_t amplified = dest[i] * gain_factor;
            dest[i] = (amplified > INT16_MAX) ? INT16_MAX : (amplified < -INT16_MAX) ? -INT16_MAX : (int16_t)amplified;
        }
    }
    return samples;
}

这段代码实现了PDM音频数据的读取和增益控制，直接通过I2S接口读取PDM麦克风数据，并根据需要应用增益，进一步优化音频质量。

应用场景与优势

NoAudioCodec技术特别适用于对成本敏感、对音频质量要求不是极高的场景，如：

语音助手设备：如智能音箱、语音控制开关等
可穿戴设备：如智能手环、手表的语音功能
教育玩具：儿童故事机、学习机等
物联网设备：远程监控、语音留言等功能

核心优势

采用纯软件音频处理方案带来的主要优势包括：

成本降低：省去硬件编解码器芯片，降低BOM成本
硬件简化：减少PCB面积，简化电路设计
灵活性高：软件算法可随时更新优化，适应不同场景
开发便捷：统一的软件接口，降低开发复杂度
兼容性好：支持多种麦克风和扬声器，不受硬件编解码器限制

与传统方案对比

特性	纯软件方案（NoAudioCodec）	传统硬件方案
成本	低（无额外芯片）	高（需专用编解码器）
音质	中等，满足基本需求	高，专业音频处理
功耗	较低	较高
灵活性	高，软件可定制	低，依赖硬件功能
开发难度	中，需软件算法开发	低，依赖硬件驱动
体积	小，无需额外芯片	大，需编解码器空间

实际应用：如何在项目中使用NoAudioCodec？

要在xiaozhi-esp32项目中使用NoAudioCodec，只需在板级配置中选择相应的音频编解码器类型。以esp-sparkbot开发板为例，其配置文件main/boards/esp-sparkbot/config.json中包含音频配置：

{
  "audio": {
    "codec": "no_audio_codec",
    "sample_rate": 16000,
    "channels": 1,
    "bits_per_sample": 16,
    "volume": 80
  }
}

通过将"codec"字段设置为"no_audio_codec"，即可启用纯软件音频处理方案。项目中多个开发板都支持这一配置，如：

开发步骤

在新项目中集成NoAudioCodec的基本步骤：

配置I2S接口引脚，连接麦克风和扬声器
在板级配置文件中选择no_audio_codec
根据硬件特性调整采样率、音量等参数
编译烧录固件，测试音频功能
根据实际效果优化软件算法

总结与展望

NoAudioCodec技术展示了xiaozhi-esp32项目在降低成本、简化设计方面的创新思路。通过纯软件实现音频处理，不仅降低了硬件成本和复杂度，还提供了更高的灵活性和可定制性，特别适合资源受限的嵌入式设备。

随着技术的不断发展，纯软件音频处理方案的音质和性能将进一步提升，有望在更多场景下替代传统硬件方案。未来可能的优化方向包括：

引入AI降噪算法，提升音频质量
优化PDM到PCM的转换算法，降低失真
实现更高效的音量控制和均衡器功能
低功耗优化，延长电池供电设备的使用时间

如果你正在开发低成本语音交互设备，不妨尝试xiaozhi-esp32项目的NoAudioCodec方案，体验纯软件音频处理带来的便利与优势。项目完整代码和更多文档可参考README.md和docs/mcp-usage.md。

欢迎点赞、收藏本文，关注项目更新，获取更多嵌入式音频处理技术分享！下期我们将深入探讨PDM麦克风的校准与优化，敬请期待。

xiaozhi-esp32

Build your own AI friend

项目地址：https://gitcode.com/GitHub_Trending/xia/xiaozhi-esp32

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.45 K

813