ChatTTS在Apple Silicon芯片上的性能表现与优化建议

2025-05-04 12:43:21作者：房伟宁

A generative speech model for daily dialogue.

项目地址：https://gitcode.com/GitHub_Trending/ch/ChatTTS

ChatTTS作为一款开源的文本转语音工具，在不同硬件平台上的表现差异引起了开发者们的广泛关注。本文将重点分析ChatTTS在Apple Silicon芯片(M系列)上的运行表现，并给出针对性的优化建议。

Apple Silicon芯片运行ChatTTS的现状

根据多位开发者的实际测试，ChatTTS在Apple Silicon芯片上运行时存在一些性能问题：

内存消耗问题：使用MPS(Apple Metal Performance Shaders)版本时会出现内存爆满的情况，特别是在M2 Pro芯片上表现明显。降级到CPU版本后可以正常运行，但性能有所下降。
速度表现差异：在M2芯片上，CPU版本的运行速度约为1it/s，比NVIDIA 4090显卡(40-70it/s)慢很多。有趣的是，有开发者反馈M2芯片的CPU版本性能与NVIDIA 4070Ti相当。
流输出卡顿：即使在最新的M3 Max芯片上，流输出时仍会出现明显卡顿现象，这表明当前版本对Apple Silicon的优化还不够充分。

性能对比分析

从测试数据来看，不同硬件平台的性能差异显著：

高端NVIDIA显卡：4090显卡处理速度可达40-70it/s，处理2048个样本仅需26-42秒
Apple Silicon：M2芯片CPU模式约1it/s，M3 Max虽然性能更强但仍存在卡顿
性能对比：M2 CPU ≈ 4070Ti < 4090

优化建议

针对Apple Silicon用户，建议采取以下优化措施：

版本选择：目前建议使用CPU版本而非MPS版本，以避免内存溢出问题
参数调整：适当降低batch size和并发数，减少内存压力
系统优化：确保macOS系统为最新版本，Metal驱动更新至最新
资源监控：运行时使用Activity Monitor监控内存和CPU使用情况

未来优化方向

从技术角度看，ChatTTS在Apple Silicon上的性能瓶颈可能来自：

Metal后端对PyTorch运算的支持不够完善
模型量化程度不足，导致内存占用过高
缺乏针对Apple Neural Engine的专门优化

开发团队可以考虑：

增加对Core ML框架的支持
提供针对M系列芯片优化的量化模型
优化Metal后端的内存管理策略

总结

ChatTTS在Apple Silicon平台上的表现目前还不够理想，特别是与高端NVIDIA显卡相比存在明显差距。用户可以通过选择合适的运行版本和调整参数来获得相对稳定的体验。期待未来版本能够加强对Apple Silicon芯片的专门优化，充分发挥M系列芯片的神经网络加速能力。

A generative speech model for daily dialogue.

项目地址：https://gitcode.com/GitHub_Trending/ch/ChatTTS

登录后查看全文

项目优选

收起

deepin linux kernel

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

昇腾LLM分布式训练框架

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。