告别枯燥阅读:ebook2audiobook让1100+种语言的电子书开口说话
你是否曾因视力疲劳放弃阅读心爱的电子书?是否想在通勤途中"听"完一本专业书籍?现在,无需任何技术背景,只需3步即可将任意电子书转换为带章节的专业有声书。ebook2audiobook这款开源工具支持1100+种语言,从中文到斯瓦希里语,从AI语音合成到个性化声音克隆,让每本书都能拥有独特"声"命力。
为什么选择ebook2audiobook?
传统有声书制作需要专业录音设备和后期处理,而ebook2audiobook通过AI技术将这一过程简化到极致:
- 零代码操作:全程可视化界面,无需命令行知识
- 多引擎支持:内置XTTSv2、BARK等6种AI语音模型,自动匹配最优方案
- 跨平台兼容:Windows/Mac/Linux全支持,甚至可在手机浏览器运行
- 专业级输出:自动生成章节标记和元数据,支持m4b/mp3等10种格式
核心功能模块源码:lib/classes/,支持自定义开发扩展。
3分钟快速上手
准备工作
硬件要求:
- 最低配置:4GB内存(推荐8GB)
- 推荐配置:NVIDIA显卡(加速AI语音合成)
环境搭建:
git clone https://gitcode.com/gh_mirrors/eb/ebook2audiobook.git
cd ebook2audiobook
Windows用户双击ebook2audiobook.cmd,Mac用户运行[Mac Ebook2Audiobook Launcher.command](https://gitcode.com/gh_mirrors/eb/ebook2audiobook/blob/d8ff8e3ade3a83e0956c85eecd1fc3ff645e0b9c/Mac Ebook2Audiobook Launcher.command?utm_source=gitcode_repo_files),Linux用户执行:
./ebook2audiobook.sh
界面导览
启动后自动打开浏览器界面,主要分为3个功能区:
- 文件上传区:支持EPUB/PDF等20+格式,最佳体验推荐EPUB格式
- 语音设置区:可选择内置76种AI语音或上传自定义声音
- 高级选项区:调整语速、输出格式等参数
详细界面元素说明:
开始转换
以《三体》EPUB版为例:
- 点击"上传电子书"按钮,选择文件
- 在语音下拉框选择"KumarDahl"(低沉男声)
- 语言选择"中文(zh)",输出格式保持默认m4b
- 点击"开始转换",等待进度条完成
转换完成后,有声书会自动保存到audiobooks/gui/目录,包含完整章节信息和封面图片。
进阶技巧:打造专属声音
声音克隆功能
只需30秒音频样本,即可克隆任意声音:
- 准备清晰的语音文件(WAV/MP3格式)
- 在"高级选项"中上传声音文件
- 模型选择XTTSv2,点击"生成克隆声音"
技术原理:声音克隆模块采用KNNVC算法,保留原始声音特征的同时优化合成质量。
多语言支持
软件内置1100+种语言支持,从常见的英语、西班牙语到稀有的克丘亚语:
常用语言代码速查:
- 中文:zh
- 英语:en
- 日语:ja
- 阿拉伯语:ar
完整语言列表:lib/lang.py,支持ISO-639-1和ISO-639-3编码。
高级用法:命令行与批量处理
对于需要批量转换的用户,命令行模式更高效:
# 基础转换
./ebook2audiobook.sh --headless --ebook ./ebooks/test.epub --language zh
# 自定义语音和输出格式
./ebook2audiobook.sh --headless --ebook ./book.pdf --voice ./my_voice.wav --output_format mp3
所有参数说明:命令行帮助文档
常见问题解决
转换速度慢?
- 启用GPU加速:确保安装NVIDIA驱动,Docker用户添加
--gpus all参数 - 降低模型质量:在设置中选择"快速模式",使用BARK模型
音频截断或乱码?
这通常是句子分割逻辑导致,可:
- 在文本中添加"###"插入1.4秒停顿
- 打开lib/conf.py调整
default_audio_proc_samplerate参数
找不到输出文件?
默认保存路径:
- GUI模式:audiobooks/gui/
- 命令行模式:audiobooks/cli/
技术架构与扩展
项目采用模块化设计,核心模块包括:
- 文本解析:lib/functions.py支持20+电子书格式
- 语音合成:lib/models.py集成6种TTS引擎
- 音频处理:tools/包含降噪、格式转换等实用工具
开发者可通过自定义模型接口添加新的语音引擎,或修改配置文件扩展支持的文件格式。
结语:让知识流动起来
从古典文学到前沿科技,从主流语言到濒危方言,ebook2audiobook正在通过AI技术打破信息获取的语言和形式障碍。无论你是学生、通勤族还是视障人士,这款工具都能让文字以更自然的方式融入生活。
现在就开始你的有声书之旅:
- 访问项目仓库获取最新版本
- 尝试转换你最爱的电子书
- 在社区分享你的声音模型
提示:定期查看VERSION.txt获取更新通知,重大版本会优化语音合成质量和新增语言支持。
感谢开源社区的贡献,特别鸣谢Coqui TTS团队提供的核心技术支持。让我们一起构建更包容的信息世界!
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
jiuwenclawJiuwenClaw 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。Python0188- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
AtomGit城市坐标计划AtomGit 城市坐标计划开启!让开源有坐标,让城市有星火。致力于与城市合伙人共同构建并长期运营一个健康、活跃的本地开发者生态。01
awesome-zig一个关于 Zig 优秀库及资源的协作列表。Makefile00



