告别枯燥阅读:3分钟搭建你的AI有声书转换平台
你还在为没时间阅读而烦恼吗?通勤路上想"读"书却腾不出手?ebook2audiobook让任何电子书秒变高质量有声书,支持1110+种语言,还能克隆你喜欢的声音。本文将带你3分钟完成搭建,从此让眼睛休息,用耳朵"阅读"。
读完本文你将获得:
- 3种快速部署方案(本地/容器/云端)
- 全平台操作指南(Windows/macOS/Linux)
- 语音克隆与多语言转换技巧
- 常见问题解决方案
项目简介
ebook2audiobook是一款基于AI技术的电子书转有声书工具,利用XTTSv2、Bark、Vits等动态模型,支持章节分割、元数据生成和语音克隆功能。项目开源地址:README.md
核心特性:
- 📚 支持EPUB、PDF等20+电子书格式
- 🎙️ 1110+种语言的文本转语音
- 🔄 自动章节分割与元数据生成
- 🧠 支持自定义AI模型与语音克隆
- 💻 跨平台支持(Windows/macOS/Linux)
快速开始
系统要求
最低配置:
- 4GB RAM
- 支持Python 3.12的操作系统
- 网络连接(首次运行需下载模型)
推荐配置:
- NVIDIA GPU(加速转换速度)
- 8GB以上RAM
- 10GB空闲磁盘空间
本地部署(3分钟版)
Windows系统
- 克隆仓库
git clone https://gitcode.com/gh_mirrors/eb/ebook2audiobook.git
cd ebook2audiobook
- 双击运行启动脚本
ebook2audiobook.cmd
macOS/Linux系统
- 克隆仓库
git clone https://gitcode.com/gh_mirrors/eb/ebook2audiobook.git
cd ebook2audiobook
- 运行启动脚本
chmod +x ebook2audiobook.sh
./ebook2audiobook.sh
- macOS用户也可双击运行
Mac Ebook2Audiobook Launcher.command
启动成功后,浏览器会自动打开Web界面(http://localhost:7860)。首次运行会自动安装依赖和下载基础模型,可能需要5-10分钟。
Docker容器部署
快速启动(CPU版)
docker run --pull always --rm -p 7860:7860 athomasson2/ebook2audiobook
GPU加速版(NVIDIA显卡)
docker run --pull always --rm --gpus all -p 7860:7860 athomasson2/ebook2audiobook
Docker Compose部署
- 编辑配置文件启用GPU(可选)
# docker-compose.yml
services:
ebook2audiobook:
build: .
deploy:
resources:
reservations:
<<: *gpu-enabled # 改为*gpu-enabled启用GPU
- 启动服务
docker-compose up -d
容器部署优势:无需担心环境依赖,一键启动,适合服务器或多用户场景。
云端运行(无需本地配置)
Hugging Face Spaces
直接在浏览器中使用:Hugging Face Spaces
Google Colab
使用指南
基本操作步骤
-
上传电子书:点击界面上方的"上传电子书"按钮,支持EPUB、PDF、MOBI等20+格式。推荐使用EPUB格式获得最佳章节分割效果。
-
选择语音:在右侧语音设置面板选择内置语音,或上传音频文件进行语音克隆。
-
设置语言:从1110+种语言中选择目标语言,系统默认使用电子书原始语言。
-
开始转换:点击"生成有声书"按钮,等待转换完成。进度会实时显示在界面上。
-
下载结果:转换完成后,点击"下载"按钮获取有声书文件,支持MP3、M4B等多种格式。
高级功能
语音克隆
- 准备1-5分钟的清晰语音样本(WAV格式最佳)
- 在"语音设置"中点击"上传语音样本"
- 系统会自动分析语音特征,生成克隆语音
自定义AI模型
- 准备模型文件(需包含config.json、model.pth等必要文件)
- 压缩为ZIP格式
- 在"高级设置"中上传自定义模型
命令行模式
适合批量处理或服务器环境:
# 基础用法
./ebook2audiobook.sh --headless --ebook ./ebooks/test.epub --language zh
# 语音克隆
./ebook2audiobook.sh --headless --ebook ./book.epub --voice ./my_voice.wav
# 自定义模型
./ebook2audiobook.sh --headless --ebook ./book.epub --custom_model ./my_model.zip
更多参数请查看帮助文档:
./ebook2audiobook.sh --help
技术架构
核心模块
- 主程序入口:app.py
- 配置模块:lib/conf.py
- 语言处理:lib/lang.py
- 模型管理:lib/models.py
- 工具函数:lib/functions.py
依赖环境
项目基于Python 3.12开发,核心依赖包括:
- Gradio:提供Web界面
- Coqui TTS:语音合成引擎
- PyTorch:深度学习框架
- EbookLib:电子书解析
- FFmpeg:音频处理
完整依赖列表:requirements.txt
常见问题解决
性能优化
- GPU加速:确保已安装NVIDIA驱动和CUDA,Docker用户需使用
--gpus all参数 - 模型缓存:首次运行后模型会缓存到本地,后续使用无需重复下载
- 批量处理:使用命令行模式并添加
--batch_size参数提高效率
常见错误处理
- 依赖缺失:运行
pip install -r requirements.txt安装所有依赖 - 模型下载失败:检查网络连接,或手动下载模型放到
models/目录 - 转换中断:大型书籍建议拆分章节处理,或使用命令行模式断点续传
硬件要求不足
- 使用云端方案:Hugging Face Spaces或Google Colab
- 降低模型质量:在设置中选择"低资源模式"
- 增加系统内存:至少保证8GB RAM(推荐16GB以上)
结语
ebook2audiobook将AI语音技术与电子书处理完美结合,让任何人都能轻松将文字转换为高质量有声内容。无论是通勤路上的知识获取,还是视力障碍人士的阅读辅助,这款工具都能发挥重要作用。
项目仍在持续迭代中,欢迎通过以下方式参与贡献:
- 提交Issue报告bug或建议
- 贡献代码实现新功能
- 分享使用经验和教程
立即开始你的有声书之旅吧!如有任何问题,欢迎加入社区讨论或查阅完整文档。
喜欢这个项目?请给我们一个Star支持开发! 下期预告:如何训练专属语音模型
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00



