harmony-speech：语音合成与识别工具库

2026-02-04 04:11:51作者：农烁颖Land

harmony-utils 一款功能丰富且极易上手的HarmonyOS工具库，借助众多实用工具类，致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备、屏幕、授权、通知、线程间通信、弹框、吐司、生物认证、用户首选项、拍照、相册、扫码、文件、日志，异常捕获、字符、字符串、数字、集合、日期、随机、base64、加密、解密、JSON等一系列的功能和操作，能够满足各种不同的开发需求。

项目地址：https://gitcode.com/tongzhanglao/harmony-utils

文章详细介绍了harmony-speech工具库中的核心功能模块，包括SpeechRecognizerHelper的语音识别功能、TextToSpeechHelper的语音合成实现、音频捕获与处理的优化技术以及多语言支持与扩展性设计。

SpeechRecognizerHelper的核心功能

SpeechRecognizerHelper 是 harmony-speech 工具库中用于语音识别的核心辅助类，提供了从语音输入到文本输出的完整流程封装。通过简洁的 API 设计，开发者可以快速实现语音识别功能，而无需关注底层复杂的实现细节。以下是其核心功能的详细介绍。

1. 语音识别引擎的创建与初始化

SpeechRecognizerHelper 提供了静态方法 createEngine，用于创建和初始化语音识别引擎实例。该方法支持自定义配置参数，如语言模式、区域信息和识别模式（短语音或长语音）。以下是一个示例代码：

// 创建语音识别引擎实例
const engine = await SpeechRecognizerHelper.createEngine({
  language: 'zh-CN',
  online: 1,
  extraParams: {
    locate: 'CN',
    recognizerMode: 'long'
  }
});

2. 设置语音识别回调

通过 setListener 方法，开发者可以设置语音识别的回调监听器，实时获取识别结果和状态信息。回调对象 RecognitionListener 提供了多种事件，如识别开始、识别结果更新和识别结束等。

// 设置回调监听器
SpeechRecognizerHelper.setListener({
  onStart: () => console.log('识别开始'),
  onResult: (result) => console.log('识别结果:', result),
  onEnd: () => console.log('识别结束')
});

3. 启动语音识别

startListening 方法用于启动语音识别流程。开发者可以通过 StartParams 配置会话 ID、音频参数和识别模式等。此外，startEasyListening 方法提供了更简化的调用方式，支持默认参数。

// 启动语音识别
SpeechRecognizerHelper.startEasyListening('session_123');

4. 音频流写入与识别

对于需要实时处理音频流的场景，writeAudio 方法允许开发者将音频数据写入引擎进行识别。音频数据格式支持 PCM，采样率和通道数等参数可配置。

// 写入音频流
const audioData = new Uint8Array([...]); // 音频数据
SpeechRecognizerHelper.writeAudio('session_123', audioData);

5. 识别流程控制

SpeechRecognizerHelper 提供了以下方法用于控制识别流程：

finish：结束当前识别会话。
cancel：取消当前识别会话。
isBusy：检查引擎是否繁忙。
shutdown：关闭引擎并释放资源。

// 结束识别
SpeechRecognizerHelper.finish('session_123');

// 关闭引擎
SpeechRecognizerHelper.shutdown();

6. 结果处理与会话管理

handleResult 方法用于从识别结果中提取文本信息，而 generateSessionId 方法则用于生成唯一的会话 ID，确保多会话场景下的数据隔离。

// 处理识别结果
const text = SpeechRecognizerHelper.handleResult(result);

// 生成会话 ID
const sessionId = SpeechRecognizerHelper.generateSessionId();

功能流程图

以下为 SpeechRecognizerHelper 的核心功能流程图：

flowchart TD
    A[创建引擎] --> B[设置回调]
    B --> C[启动识别]
    C --> D[写入音频]
    D --> E[结束/取消识别]
    E --> F[关闭引擎]

通过以上功能，SpeechRecognizerHelper 为开发者提供了高效、灵活的语音识别解决方案，适用于多种应用场景。

TextToSpeechHelper的实现细节

TextToSpeechHelper 是 harmony-speech 工具库中用于语音合成的核心工具类，封装了文本转语音（TTS）的核心功能。通过该类，开发者可以快速实现文本的语音播报功能，支持灵活的配置和回调监听。以下将详细介绍其实现细节。

核心功能与设计

TextToSpeechHelper 的主要功能包括：

创建 TTS 引擎实例：初始化语音合成引擎。
文本播报：将文本转换为语音并播放。
参数配置：支持语速、音量、音调等参数的动态调整。
回调监听：提供播报状态、错误等事件的回调。

类定义与成员变量

export class TextToSpeechHelper {
  private static ttsEngine: textToSpeech.TextToSpeechEngine | undefined = undefined;
}

ttsEngine 是 TextToSpeechEngine 类型的静态变量，用于保存当前引擎实例。

创建引擎实例

createEngine 方法用于初始化 TTS 引擎，支持自定义配置参数。如果未提供参数，则使用默认配置：

static async createEngine(params?: textToSpeech.CreateEngineParams): Promise<textToSpeech.TextToSpeechEngine> {
  if (params === undefined || params === null) {
    const createEngineParams: textToSpeech.CreateEngineParams = {
      language: 'zh-CN',
      online: 1,
      person: 0,
      extraParams: {
        "style": 'interaction-broadcast',
        "locate": 'CN',
        "name": 'EngineName',
        'isBackStage': false,
      }
    };
    params = createEngineParams;
  }
  TextToSpeechHelper.ttsEngine = await textToSpeech.createEngine(params);
  return TextToSpeechHelper.ttsEngine;
}

参数说明：
- language：语种，当前仅支持中文（zh-CN）。
- online：模式，当前仅支持离线模式（值为 1）。
- person：音色，当前仅支持聆小珊女声音色（值为 0）。
- extraParams：额外配置，包括风格、区域、引擎名称等。

文本播报功能

speak 方法用于将文本转换为语音并播放：

static speak(originalText: string) {
  // 待实现
}

待扩展功能：
- 支持动态调整语速、音量、音调等参数。
- 支持播报状态的回调监听。

参数配置与回调监听

TextToSpeechHelper 预留了丰富的参数配置和回调监听接口，开发者可以根据需求扩展以下功能：

参数配置：

let extraParam: Record<string, Object> = {
  "speed": 1, // 语速
  "volume": 2, // 音量
  "pitch": 1, // 音调
};

回调监听：

let speakListener: textToSpeech.SpeakListener = {
  onStart: (requestId, response) => console.info(`开始播报: ${requestId}`),
  onComplete: (requestId, response) => console.info(`播报完成: ${requestId}`),
};

流程图

以下为 TextToSpeechHelper 的工作流程：

flowchart TD
  A[创建引擎实例] --> B[配置参数]
  B --> C[调用 speak 方法]
  C --> D[播报完成回调]

总结

TextToSpeechHelper 通过封装 textToSpeech 的核心功能，为开发者提供了简单易用的语音合成接口。未来可以进一步扩展多语言支持、多音色选择等功能。

音频捕获与处理的优化

在harmony-speech工具库中，音频捕获与处理是实现语音识别和合成的关键环节。通过优化音频捕获流程和处理逻辑，可以显著提升语音交互的实时性和准确性。以下将从音频捕获的配置、数据流处理以及性能优化三个方面展开说明。

1. 音频捕获配置优化

音频捕获的核心是AudioCapturer模块，其配置参数直接影响音频数据的质量和性能。以下是一个典型的音频捕获配置示例：

const audioCapturerOptions: audio.AudioCapturerOptions = {
  audioStreamInfo: {
    samplingRate: audio.AudioSamplingRate.SAMPLE_RATE_16000, // 采样率
    channels: audio.AudioChannel.CHANNEL_1, // 单声道
    sampleFormat: audio.AudioSampleFormat.SAMPLE_FORMAT_S16LE, // 16位小端整数
    encodingType: audio.AudioEncodingType.ENCODING_TYPE_RAW // PCM编码
  },
  capturerInfo: {
    source: audio.SourceType.SOURCE_TYPE_MIC, // 麦克风输入
    capturerFlags: 0 // 默认标志
  }
};

参数说明：

参数	值	说明
`samplingRate`	`SAMPLE_RATE_16000`	采样率为16kHz，适合语音识别场景。
`channels`	`CHANNEL_1`	单声道配置，减少数据量并简化处理逻辑。
`sampleFormat`	`SAMPLE_FORMAT_S16LE`	16位带符号整数格式，兼容大多数语音处理算法。
`encodingType`	`ENCODING_TYPE_RAW`	原始PCM编码，避免额外的编解码开销。

2. 音频数据流处理

音频数据的实时处理是语音识别的关键。harmony-speech通过AudioCapturer的readData事件实现数据流的捕获和处理：

AudioCapturerHelper.audioCapturer?.on('readData', (buffer: ArrayBuffer) => {
  // 处理音频数据
  const audioData = new Uint8Array(buffer);
  SpeechRecognizerHelper.writeAudio(sessionId, audioData); // 发送到识别引擎
});

处理流程：

sequenceDiagram
    participant Mic as 麦克风
    participant Capturer as AudioCapturer
    participant Processor as 数据处理模块
    Mic->>Capturer: 音频输入
    Capturer->>Processor: 触发readData事件
    Processor->>SpeechRecognizer: 发送音频数据

3. 性能优化实践

为了确保音频捕获的高效性，以下优化措施值得关注：

缓冲区管理
合理设置缓冲区大小，避免频繁的内存分配和释放。例如，使用固定大小的缓冲区（如640字节或1280字节）以减少延迟。

状态机管理
AudioCapturer的状态机需严格管理，确保在适当的时机启动、暂停或释放资源。例如：

if (AudioCapturerHelper.audioCapturer?.state === audio.AudioState.STATE_RUNNING) {
  await AudioCapturerHelper.audioCapturer.stop();
}

异步处理
使用异步操作（如Promise）避免阻塞主线程，提升应用响应速度。

通过以上优化，harmony-speech能够高效地捕获和处理音频数据，为语音识别和合成提供坚实的基础。

多语言支持与扩展性

harmony-speech 作为一款专注于语音合成与识别的工具库，其多语言支持与扩展性是开发者在全球化应用开发中关注的重点。以下将从当前支持的语言、扩展机制以及未来规划三个方面展开说明。

当前支持的语言

目前，harmony-speech 主要支持中文语音的合成与识别，具体表现为：

语音识别：仅支持 zh-CN（简体中文）语种。
语音合成：同样仅支持 zh-CN 格式，但兼容 zh_CN 格式的输入。

// 示例代码：语音识别初始化
SpeechRecognizerHelper.init({
    language: 'zh-CN', // 当前仅支持中文
});

// 示例代码：语音合成初始化
TextToSpeechHelper.init({
    language: 'zh-CN', // 支持中文
});

扩展机制

尽管当前仅支持中文，harmony-speech 的设计已预留了多语言扩展的接口。开发者可以通过以下方式实现扩展：

语言包集成：未来版本计划引入语言包机制，支持动态加载不同语言的语音模型。
自定义适配：开发者可通过扩展 TextToSpeechHelper 和 SpeechRecognizerHelper 类，实现对新语种的支持。

classDiagram
    class TextToSpeechHelper {
        +init(config: Object): void
        +speak(text: string): void
        +setLanguage(language: string): void
    }

    class SpeechRecognizerHelper {
        +init(config: Object): void
        +startRecognizing(): void
        +setLanguage(language: string): void
    }

未来规划

harmony-speech 团队计划在后续版本中逐步增加对更多语言的支持，包括但不限于：

英语（en-US）
日语（ja-JP）
法语（fr-FR）

同时，团队将优化语言切换的性能，确保在多语言场景下的流畅体验。

timeline
    title 多语言支持路线图
    2023 Q4 : 支持英语
    2024 Q1 : 支持日语
    2024 Q2 : 支持法语

通过以上设计，harmony-speech 将为开发者提供更灵活的多语言支持能力，助力全球化应用的开发。

harmony-speech工具库通过封装语音识别与合成的核心功能，提供了高效、灵活的解决方案。其模块化设计和预留的扩展接口为开发者提供了便捷的开发体验，同时未来的多语言支持规划将进一步增强其全球化适用性。

harmony-utils

项目地址：https://gitcode.com/tongzhanglao/harmony-utils

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

986

248