告别枯燥阅读:ebook2audiobook让1100+种语言的电子书开口说话
你是否曾因视力疲劳放弃阅读心爱的电子书?是否想在通勤途中"听"完一本专业书籍?现在,无需任何技术背景,只需3步即可将任意电子书转换为带章节的专业有声书。ebook2audiobook这款开源工具支持1100+种语言,从中文到斯瓦希里语,从AI语音合成到个性化声音克隆,让每本书都能拥有独特"声"命力。
为什么选择ebook2audiobook?
传统有声书制作需要专业录音设备和后期处理,而ebook2audiobook通过AI技术将这一过程简化到极致:
- 零代码操作:全程可视化界面,无需命令行知识
- 多引擎支持:内置XTTSv2、BARK等6种AI语音模型,自动匹配最优方案
- 跨平台兼容:Windows/Mac/Linux全支持,甚至可在手机浏览器运行
- 专业级输出:自动生成章节标记和元数据,支持m4b/mp3等10种格式
核心功能模块源码:lib/classes/,支持自定义开发扩展。
3分钟快速上手
准备工作
硬件要求:
- 最低配置:4GB内存(推荐8GB)
- 推荐配置:NVIDIA显卡(加速AI语音合成)
环境搭建:
git clone https://gitcode.com/gh_mirrors/eb/ebook2audiobook.git
cd ebook2audiobook
Windows用户双击ebook2audiobook.cmd,Mac用户运行[Mac Ebook2Audiobook Launcher.command](https://gitcode.com/gh_mirrors/eb/ebook2audiobook/blob/d8ff8e3ade3a83e0956c85eecd1fc3ff645e0b9c/Mac Ebook2Audiobook Launcher.command?utm_source=gitcode_repo_files),Linux用户执行:
./ebook2audiobook.sh
界面导览
启动后自动打开浏览器界面,主要分为3个功能区:
- 文件上传区:支持EPUB/PDF等20+格式,最佳体验推荐EPUB格式
- 语音设置区:可选择内置76种AI语音或上传自定义声音
- 高级选项区:调整语速、输出格式等参数
详细界面元素说明:
开始转换
以《三体》EPUB版为例:
- 点击"上传电子书"按钮,选择文件
- 在语音下拉框选择"KumarDahl"(低沉男声)
- 语言选择"中文(zh)",输出格式保持默认m4b
- 点击"开始转换",等待进度条完成
转换完成后,有声书会自动保存到audiobooks/gui/目录,包含完整章节信息和封面图片。
进阶技巧:打造专属声音
声音克隆功能
只需30秒音频样本,即可克隆任意声音:
- 准备清晰的语音文件(WAV/MP3格式)
- 在"高级选项"中上传声音文件
- 模型选择XTTSv2,点击"生成克隆声音"
技术原理:声音克隆模块采用KNNVC算法,保留原始声音特征的同时优化合成质量。
多语言支持
软件内置1100+种语言支持,从常见的英语、西班牙语到稀有的克丘亚语:
常用语言代码速查:
- 中文:zh
- 英语:en
- 日语:ja
- 阿拉伯语:ar
完整语言列表:lib/lang.py,支持ISO-639-1和ISO-639-3编码。
高级用法:命令行与批量处理
对于需要批量转换的用户,命令行模式更高效:
# 基础转换
./ebook2audiobook.sh --headless --ebook ./ebooks/test.epub --language zh
# 自定义语音和输出格式
./ebook2audiobook.sh --headless --ebook ./book.pdf --voice ./my_voice.wav --output_format mp3
所有参数说明:命令行帮助文档
常见问题解决
转换速度慢?
- 启用GPU加速:确保安装NVIDIA驱动,Docker用户添加
--gpus all参数 - 降低模型质量:在设置中选择"快速模式",使用BARK模型
音频截断或乱码?
这通常是句子分割逻辑导致,可:
- 在文本中添加"###"插入1.4秒停顿
- 打开lib/conf.py调整
default_audio_proc_samplerate参数
找不到输出文件?
默认保存路径:
- GUI模式:audiobooks/gui/
- 命令行模式:audiobooks/cli/
技术架构与扩展
项目采用模块化设计,核心模块包括:
- 文本解析:lib/functions.py支持20+电子书格式
- 语音合成:lib/models.py集成6种TTS引擎
- 音频处理:tools/包含降噪、格式转换等实用工具
开发者可通过自定义模型接口添加新的语音引擎,或修改配置文件扩展支持的文件格式。
结语:让知识流动起来
从古典文学到前沿科技,从主流语言到濒危方言,ebook2audiobook正在通过AI技术打破信息获取的语言和形式障碍。无论你是学生、通勤族还是视障人士,这款工具都能让文字以更自然的方式融入生活。
现在就开始你的有声书之旅:
- 访问项目仓库获取最新版本
- 尝试转换你最爱的电子书
- 在社区分享你的声音模型
提示:定期查看VERSION.txt获取更新通知,重大版本会优化语音合成质量和新增语言支持。
感谢开源社区的贡献,特别鸣谢Coqui TTS团队提供的核心技术支持。让我们一起构建更包容的信息世界!
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust098- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiMo-V2.5-ProMiMo-V2.5-Pro作为旗舰模型,擅⻓处理复杂Agent任务,单次任务可完成近千次⼯具调⽤与⼗余轮上 下⽂压缩。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00



