VOICEVOX项目中的音乐数据结构重构分析

2025-06-29 19:46:49作者：董宙帆

在VOICEVOX这个开源语音合成项目中，近期对其音乐数据存储结构进行了一次重要的重构。本文将深入分析这次重构的技术细节和设计考量。

重构背景

VOICEVOX作为一个语音合成系统，需要处理音乐相关的数据结构。在早期版本中，所有音乐元素(音符、速度、拍号等)都被集中存储在Score类型中。随着项目发展，这种设计逐渐显现出局限性，特别是在考虑未来支持多音轨功能时。

原有设计的问题

原Score类型同时包含以下元素：

音符(Note)
速度变化(Tempo)
拍号变化(TimeSignature)
时间分辨率(TPQN)

这种设计将所有音乐元素混合在一个结构中，虽然简单直接，但存在几个潜在问题：

概念边界模糊：音符(属于具体音轨)与速度/拍号(属于全局设置)被混在一起
扩展性差：难以支持多音轨场景
职责不清晰：Score类型同时承担了编辑状态存储和乐谱数据交换两种职责

重构方案

新的设计方案将数据结构分层处理：

type Track = {
  notes: Note[];
};

type SongEditorStoreState = {
  tpqn: number;
  timeSignatures: TimeSignature[];
  tempos: Tempo[];
  tracks: Track[]; // 初期阶段只使用一个音轨
  // 其他状态...
};

关键改进点

音轨概念的引入：新增Track类型专门负责存储音符数据
全局与局部分离：速度、拍号等全局设置与音符数据分离
状态与数据分离：编辑状态(StoreState)与纯乐谱数据(Score)区分

技术优势

更好的扩展性：为多音轨支持奠定基础，只需在tracks数组中添加新音轨
更清晰的职责划分：
- 编辑状态负责维护当前工作环境
- Score类型专用于乐谱数据的导入导出
更合理的抽象层次：音符属于音轨，速度/拍号属于全局设置，符合音乐制作软件的常规设计

实现细节

在具体实现过程中，开发者还注意到：

需要通过getter(如CURRENT_TRACK或SELECTED_TRACK)来访问当前音轨，而不是直接使用tracks[0]
保持向后兼容性，在单音轨阶段也能正常工作
确保所有相关组件都能适应新的数据结构

总结

这次VOICEVOX的数据结构重构是一次典型的架构优化案例，展示了如何通过合理的数据分层来提升系统的可维护性和扩展性。将音符数据与全局设置分离，不仅为多音轨功能铺平了道路，也使代码结构更加清晰合理。这种设计思路对于开发复杂的音乐相关应用具有很好的参考价值。

voicevox

無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのエディター

项目地址：https://gitcode.com/gh_mirrors/vo/voicevox

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

203

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

apinto

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。