Read the Docs平台实现文本格式文档生成的技术方案

2025-05-28 14:51:03作者：尤辰城Agatha

在文档自动化构建领域，Read the Docs作为知名开源文档托管平台，原生支持HTML、PDF和ePub三种输出格式。但在实际开发场景中，开发者经常需要生成纯文本格式的文档，例如用于命令行工具帮助文档或简化版API参考。本文将深入解析如何在Read the Docs平台上实现文本格式文档的自动化构建。

原生格式支持的局限性

Read the Docs的配置文件.readthedocs.yaml中，formats字段目前仅接受htmlzip/pdf/epub三种预设值。当开发者尝试添加text格式时，平台会抛出配置验证错误。这种设计源于平台对构建流程的标准化管理，但通过灵活的构建定制功能，我们完全可以突破这一限制。

技术实现方案

核心解决思路是利用build.jobs.post_build构建阶段的自定义命令功能。具体实施时需要关注以下关键技术点：

构建目录结构
必须确保输出目录$READTHEDOCS_OUTPUT/html/存在，这是平台约定的构建产物存放位置。通过mkdir -p命令创建多级目录结构能有效避免路径错误。
Sphinx构建器选择
Sphinx框架原生支持text构建器(-b text参数)，该构建器会将reStructuredText/Markdown源文件转换为纯文本格式。与html构建器不同，text构建器会：
- 自动处理标题层级
- 保留代码块缩进
- 转换表格为ASCII格式
- 过滤所有HTML标签

输出文件命名
建议将主输出文件命名为llms.txt等具有语义化的名称，便于后续引用。构建命令示例：

build:
  jobs:
    htmlzip:
      - mkdir -p $READTHEDOCS_OUTPUT/html/
      - sphinx-build -n -b text docs $READTHEDOCS_OUTPUT/html/llms.txt

生产环境最佳实践

在实际项目部署时，建议采用以下增强措施：

多格式并行构建
可以在post_build阶段同时生成多种格式，例如在生成text格式的同时保留PDF构建：

formats:
  - pdf
build:
  jobs:
    post_build:
      - sphinx-build -n -b text docs $READTHEDOCS_OUTPUT/html/llms.txt

构建缓存优化
对于大型文档项目，可以添加--keep-going参数使构建过程在遇到警告时继续执行：
```
sphinx-build -n -b text --keep-going docs $READTHEDOCS_OUTPUT/html/
```
版本兼容性处理
不同Sphinx版本对text构建器的实现可能有差异，建议在requirements.txt中固定sphinx版本：
```
sphinx==7.2.6
```