构建实时语音交互应用：基于Vue与FunASR的前端组件开发指南

2026-03-07 06:27:23作者：伍霜盼Ellen

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

项目地址：https://gitcode.com/GitHub_Trending/fun/FunASR

语音识别技术正在改变人机交互方式，而实时语音转写作为其中的关键能力，被广泛应用于会议记录、实时字幕等场景。FunASR作为阿里巴巴达摩院开源的语音识别工具包，提供了高性能的语音处理能力。本文将从技术原理出发，通过实战案例详细讲解如何使用Vue框架开发实时语音转写前端组件，帮助开发者快速掌握前端语音组件开发的核心技术。

技术原理：实时语音转写的工作机制

实时语音转写系统涉及音频采集、数据传输、语音识别和结果展示等多个环节。理解这些技术原理是构建高质量应用的基础。

FunASR的技术架构

FunASR的技术架构如图所示，主要包含模型库、核心库、运行时环境和服务接口四个部分。模型库提供了ASR、VAD、PUNC等多种预训练模型；核心库包含训练和推理代码；运行时环境支持Libtorch、ONNX等多种部署方式；服务接口则提供gRPC、WebSocket等通信方式，方便前端应用集成。

WebSocket在语音传输中的应用机制

实时语音转写需要低延迟的双向通信，WebSocket协议正好满足这一需求。与HTTP协议相比，WebSocket具有以下优势：

全双工通信：服务器和客户端可以同时发送数据，无需频繁建立连接。
低延迟：建立连接后，数据传输不需要重复握手，减少了延迟。
持久连接：一次连接可以保持长时间有效，适合实时数据传输。

在语音转写应用中，前端通过WebSocket将采集到的音频数据实时发送给服务器，服务器处理后将识别结果返回给前端，实现实时交互。

开发流程：从零开始构建语音转写组件

环境准备

首先，克隆FunASR项目并安装前端依赖：

git clone https://gitcode.com/GitHub_Trending/fun/FunASR
cd FunASR/web-pages
npm install

本项目基于Vue 2.6和Ant Design Vue 1.7构建，安装完成后，可以使用npm run serve启动开发服务器。

核心组件设计

一个完整的实时语音转写组件应包含以下部分：

音频采集组件：负责从麦克风采集音频数据。
WebSocket通信组件：处理与服务器的实时数据传输。
识别结果展示组件：实时显示转写结果，并提供滚动、高亮等交互功能。
状态管理组件：管理录音状态、连接状态等全局状态。

音频采集与处理

使用浏览器的MediaRecorder API采集音频数据：

// 初始化音频采集
async function initAudio() {
  const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
  const mediaRecorder = new MediaRecorder(stream, { mimeType: 'audio/webm' });
  
  mediaRecorder.ondataavailable = (event) => {
    if (event.data.size > 0) {
      // 将音频数据发送到WebSocket
      sendAudioData(event.data);
    }
  };
  
  return mediaRecorder;
}

为了适应实时传输，需要将音频数据分割成小块，通常每100-200毫秒发送一次。

WebSocket连接实现

建立WebSocket连接并处理数据传输：

class WebSocketClient {
  constructor(url) {
    this.ws = new WebSocket(url);
    this.initEventListeners();
  }
  
  initEventListeners() {
    this.ws.onopen = () => {
      console.log('WebSocket连接已建立');
      // 连接建立后发送配置信息
      this.sendConfig();
    };
    
    this.ws.onmessage = (event) => {
      const result = JSON.parse(event.data);
      // 处理识别结果
      this.handleResult(result);
    };
    
    this.ws.onerror = (error) => {
      console.error('WebSocket错误:', error);
      // 错误处理，如重连机制
    };
    
    this.ws.onclose = () => {
      console.log('WebSocket连接已关闭');
      // 连接关闭处理，如自动重连
    };
  }
  
  sendAudioData(data) {
    if (this.ws.readyState === WebSocket.OPEN) {
      this.ws.send(data);
    }
  }
  
  sendConfig() {
    const config = {
      sampleRate: 16000,
      format: 'webm',
      language: 'zh-CN'
    };
    this.ws.send(JSON.stringify(config));
  }
  
  handleResult(result) {
    // 将识别结果传递给展示组件
    eventBus.$emit('recognition-result', result);
  }
}

实战案例：会议实时转写系统

需求分析

会议实时转写系统需要实现以下功能：

实时采集与会人员的语音。
将语音转写为文字并实时显示。
支持多人发言区分。
提供转写结果的编辑和导出功能。

系统设计

系统采用模块化设计，主要包含以下模块：

音频采集模块：使用MediaRecorder API采集音频。
WebSocket通信模块：负责与FunASR服务端通信。
转写结果处理模块：处理服务器返回的识别结果，包括发言人区分、文本格式化等。
UI展示模块：使用Vue组件展示转写结果，提供交互功能。

会议室音频采集方案

会议室环境下的音频采集需要考虑多麦克风阵列、回声消除等问题。下图是一个典型的会议室录音场地示例，展示了麦克风阵列的布局。

在实际应用中，可以根据会议室大小和布局，选择合适的麦克风阵列，并通过音频处理算法减少噪声和回声的影响。

核心代码实现

音频采集与发送

// AudioRecorder.vue
export default {
  data() {
    return {
      mediaRecorder: null,
      isRecording: false
    };
  },
  methods: {
    async startRecording() {
      this.mediaRecorder = await initAudio();
      this.mediaRecorder.start(100); // 每100毫秒发送一次数据
      this.isRecording = true;
    },
    stopRecording() {
      this.mediaRecorder.stop();
      this.isRecording = false;
    }
  }
};

识别结果展示

<!-- RecognitionResult.vue -->
<template>
  <div class="result-container">
    <div v-for="(segment, index) in results" :key="index" class="result-segment">
      <div class="speaker">{{ segment.speaker }}:</div>
      <div class="text">{{ segment.text }}</div>
    </div>
  </div>
</template>

<script>
export default {
  data() {
    return {
      results: []
    };
  },
  created() {
    eventBus.$on('recognition-result', (result) => {
      this.results.push(result);
      // 自动滚动到底部
      this.$nextTick(() => {
        const container = this.$el.querySelector('.result-container');
        container.scrollTop = container.scrollHeight;
      });
    });
  }
};
</script>

进阶技巧：提升实时语音转写体验

如何解决实时语音传输延迟问题？

实时语音转写的延迟主要来自三个方面：音频采集、网络传输和服务器处理。以下是一些优化方法：

音频数据分块优化：将音频数据分割成更小的块（如200ms一块），减少单次传输的数据量。
网络传输优化：使用WebSocket的二进制传输模式，减少数据编码和解码的时间。
服务器处理优化：使用GPU加速语音识别模型，减少处理时间。
预加载模型：在应用启动时预加载语音识别模型，减少首次识别的延迟。

如何实现音频可视化效果？

音频可视化可以让用户直观地了解音频采集状态，提升用户体验。使用Web Audio API实现音频波形显示：

// 初始化音频分析器
function initAudioVisualizer(stream) {
  const audioContext = new AudioContext();
  const source = audioContext.createMediaStreamSource(stream);
  const analyser = audioContext.createAnalyser();
  source.connect(analyser);
  
  analyser.fftSize = 256;
  const bufferLength = analyser.frequencyBinCount;
  const dataArray = new Uint8Array(bufferLength);
  
  // 绘制波形
  function drawWaveform() {
    requestAnimationFrame(drawWaveform);
    analyser.getByteFrequencyData(dataArray);
    
    // 绘制逻辑
    const canvas = document.getElementById('waveform');
    const ctx = canvas.getContext('2d');
    // ... 绘制代码 ...
  }
  
  drawWaveform();
}

如何处理网络异常和重连？

网络异常是实时应用中常见的问题，需要实现可靠的重连机制：

// WebSocket重连机制
class ReconnectingWebSocket {
  constructor(url, reconnectInterval = 3000) {
    this.url = url;
    this.reconnectInterval = reconnectInterval;
    this.ws = null;
    this.connect();
  }
  
  connect() {
    this.ws = new WebSocket(this.url);
    this.initEventListeners();
  }
  
  initEventListeners() {
    // ... 其他事件监听 ...
    
    this.ws.onclose = () => {
      console.log('连接关闭，正在重连...');
      setTimeout(() => this.connect(), this.reconnectInterval);
    };
  }
  
  // ... 其他方法 ...
}