【亲测免费】 Python-docx2txt 使用教程

2026-01-17 09:29:32作者：伍希望

项目介绍

Python-docx2txt 是一个基于 Python 的纯文本提取工具，用于从 DOCX 文件中提取文本和图像。该项目是从 python-docx 项目中获取并改编的代码，能够从页眉、页脚和超链接中提取文本，并且现在也可以提取图像。

项目快速启动

安装

首先，你需要安装 Python-docx2txt 库。你可以使用 pip 进行安装：

pip install docx2txt

使用示例

从命令行提取文本

docx2txt file.docx

从命令行提取文本和图像

docx2txt -i /tmp/img_dir file.docx

在 Python 中调用

import docx2txt

# 提取文本
text = docx2txt.process("file.docx")

# 提取文本和图像
text = docx2txt.process("file.docx", "/tmp/img_dir")

应用案例和最佳实践

案例一：批量转换 DOCX 文件为 TXT 文件

假设你有一个包含多个 DOCX 文件的文件夹，你可以编写一个脚本来批量转换这些文件：

import os
import docx2txt

def docx2txt_batch(input_dir, output_dir):
    docx_files = [f for f in os.listdir(input_dir) if f.endswith('.docx')]
    for docx_file in docx_files:
        text = docx2txt.process(os.path.join(input_dir, docx_file))
        txt_file = os.path.splitext(docx_file)[0] + '.txt'
        with open(os.path.join(output_dir, txt_file), 'w', encoding='utf-8') as f:
            f.write(text)

# 使用示例
docx2txt_batch('path/to/docx/files', 'path/to/output/txt/files')

案例二：提取 DOCX 文件中的图像

如果你需要从 DOCX 文件中提取图像，可以使用以下代码：

import docx2txt

# 提取文本和图像
text, images = docx2txt.process("file.docx", "/tmp/img_dir")

典型生态项目

Python-docx2txt 可以与其他 Python 库结合使用，以实现更复杂的功能。以下是一些典型的生态项目：

python-docx: 用于创建和修改 DOCX 文件的库。
pandas: 用于数据分析的库，可以与 Python-docx2txt 结合使用，从 DOCX 文件中提取数据并进行分析。
flask/django: 用于构建 Web 应用程序的框架，可以集成 Python-docx2txt 来处理用户上传的 DOCX 文件。

通过这些生态项目的结合，你可以构建出功能强大的文档处理和数据分析工具。

python-docx2txt

A pure python based utility to extract text and images from docx files.

项目地址：https://gitcode.com/gh_mirrors/py/python-docx2txt

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1.01 K

631