告别枯燥阅读:ebook2audiobook让1100+种语言的电子书开口说话
你是否曾因视力疲劳放弃阅读心爱的电子书?是否想在通勤途中"听"完一本专业书籍?现在,无需任何技术背景,只需3步即可将任意电子书转换为带章节的专业有声书。ebook2audiobook这款开源工具支持1100+种语言,从中文到斯瓦希里语,从AI语音合成到个性化声音克隆,让每本书都能拥有独特"声"命力。
为什么选择ebook2audiobook?
传统有声书制作需要专业录音设备和后期处理,而ebook2audiobook通过AI技术将这一过程简化到极致:
- 零代码操作:全程可视化界面,无需命令行知识
- 多引擎支持:内置XTTSv2、BARK等6种AI语音模型,自动匹配最优方案
- 跨平台兼容:Windows/Mac/Linux全支持,甚至可在手机浏览器运行
- 专业级输出:自动生成章节标记和元数据,支持m4b/mp3等10种格式
核心功能模块源码:lib/classes/,支持自定义开发扩展。
3分钟快速上手
准备工作
硬件要求:
- 最低配置:4GB内存(推荐8GB)
- 推荐配置:NVIDIA显卡(加速AI语音合成)
环境搭建:
git clone https://gitcode.com/gh_mirrors/eb/ebook2audiobook.git
cd ebook2audiobook
Windows用户双击ebook2audiobook.cmd,Mac用户运行[Mac Ebook2Audiobook Launcher.command](https://gitcode.com/gh_mirrors/eb/ebook2audiobook/blob/d8ff8e3ade3a83e0956c85eecd1fc3ff645e0b9c/Mac Ebook2Audiobook Launcher.command?utm_source=gitcode_repo_files),Linux用户执行:
./ebook2audiobook.sh
界面导览
启动后自动打开浏览器界面,主要分为3个功能区:
- 文件上传区:支持EPUB/PDF等20+格式,最佳体验推荐EPUB格式
- 语音设置区:可选择内置76种AI语音或上传自定义声音
- 高级选项区:调整语速、输出格式等参数
详细界面元素说明:
开始转换
以《三体》EPUB版为例:
- 点击"上传电子书"按钮,选择文件
- 在语音下拉框选择"KumarDahl"(低沉男声)
- 语言选择"中文(zh)",输出格式保持默认m4b
- 点击"开始转换",等待进度条完成
转换完成后,有声书会自动保存到audiobooks/gui/目录,包含完整章节信息和封面图片。
进阶技巧:打造专属声音
声音克隆功能
只需30秒音频样本,即可克隆任意声音:
- 准备清晰的语音文件(WAV/MP3格式)
- 在"高级选项"中上传声音文件
- 模型选择XTTSv2,点击"生成克隆声音"
技术原理:声音克隆模块采用KNNVC算法,保留原始声音特征的同时优化合成质量。
多语言支持
软件内置1100+种语言支持,从常见的英语、西班牙语到稀有的克丘亚语:
常用语言代码速查:
- 中文:zh
- 英语:en
- 日语:ja
- 阿拉伯语:ar
完整语言列表:lib/lang.py,支持ISO-639-1和ISO-639-3编码。
高级用法:命令行与批量处理
对于需要批量转换的用户,命令行模式更高效:
# 基础转换
./ebook2audiobook.sh --headless --ebook ./ebooks/test.epub --language zh
# 自定义语音和输出格式
./ebook2audiobook.sh --headless --ebook ./book.pdf --voice ./my_voice.wav --output_format mp3
所有参数说明:命令行帮助文档
常见问题解决
转换速度慢?
- 启用GPU加速:确保安装NVIDIA驱动,Docker用户添加
--gpus all参数 - 降低模型质量:在设置中选择"快速模式",使用BARK模型
音频截断或乱码?
这通常是句子分割逻辑导致,可:
- 在文本中添加"###"插入1.4秒停顿
- 打开lib/conf.py调整
default_audio_proc_samplerate参数
找不到输出文件?
默认保存路径:
- GUI模式:audiobooks/gui/
- 命令行模式:audiobooks/cli/
技术架构与扩展
项目采用模块化设计,核心模块包括:
- 文本解析:lib/functions.py支持20+电子书格式
- 语音合成:lib/models.py集成6种TTS引擎
- 音频处理:tools/包含降噪、格式转换等实用工具
开发者可通过自定义模型接口添加新的语音引擎,或修改配置文件扩展支持的文件格式。
结语:让知识流动起来
从古典文学到前沿科技,从主流语言到濒危方言,ebook2audiobook正在通过AI技术打破信息获取的语言和形式障碍。无论你是学生、通勤族还是视障人士,这款工具都能让文字以更自然的方式融入生活。
现在就开始你的有声书之旅:
- 访问项目仓库获取最新版本
- 尝试转换你最爱的电子书
- 在社区分享你的声音模型
提示:定期查看VERSION.txt获取更新通知,重大版本会优化语音合成质量和新增语言支持。
感谢开源社区的贡献,特别鸣谢Coqui TTS团队提供的核心技术支持。让我们一起构建更包容的信息世界!
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00



