Setuptools 中 package-data 配置的深度解析与最佳实践

2025-06-29 17:51:12作者：范垣楠Rhoda

引言

在 Python 打包过程中，非 Python 文件（如 JSON、CSV、YAML 等数据文件）的处理一直是开发者经常遇到的难题。本文将以 setuptools 项目为例，深入剖析 package-data 相关配置的工作原理，帮助开发者掌握数据文件打包的正确方法。

核心概念解析

1. 数据文件的三种管理方式

setuptools 提供了三种主要方式来管理项目中的非 Python 文件：

MANIFEST.in 文件：传统方式，显式声明需要包含的文件模式
版本控制系统插件：如 setuptools-scm，自动包含被版本控制的文件
package-data 配置：在 pyproject.toml 中直接指定数据文件

2. 关键配置参数

include-package-data：布尔值，控制是否自动包含数据文件
exclude-package-data：用于排除特定数据文件
package-data：显式指定要包含的数据文件模式

工作机制详解

1. 源分发(sdist)与二进制分发(wheel)的关系

源分发包含构建二进制分发所需的所有文件，而二进制分发则是可直接安装的格式。数据文件需要先被包含在 sdist 中，才能进入 wheel。

2. 配置逻辑的布尔表达式

用布尔代数表示各配置间的逻辑关系：

sdist 包含条件：s = m ∨ (¬e ∧ p)
wheel 包含条件：w = (i ∧ ¬e ∧ m) ∨ (¬e ∧ p)

其中：

i 表示 include-package-data=true
e 表示 exclude-package-data 设置了排除
p 表示 package-data 显式配置
m 表示 MANIFEST.in 包含文件
s 表示文件在 sdist 中
w 表示文件在 wheel 中

实际应用场景

场景1：使用 MANIFEST.in

当仅使用 MANIFEST.in 时：

include-package-data=true：文件会进入 sdist 和 wheel
include-package-data=false：文件只进入 sdist

场景2：使用 package-data 配置

当配置了 package-data 时：

无论 include-package-data 如何设置，文件都会进入 sdist 和 wheel
exclude-package-data 可以覆盖此行为

场景3：混合使用多种方式

开发者可以组合使用这些方式，但需要注意优先级：

exclude-package-data 具有最高优先级
package-data 配置次之
MANIFEST.in/版本控制方式优先级最低

最佳实践建议

明确需求：先确定哪些文件需要被打包，哪些需要排除
一致性原则：建议统一使用 package-data 配置，避免混合多种方式
测试验证：构建后检查 dist 目录，确认文件包含符合预期
版本兼容：注意 setuptools 58.5.3 后的行为变化

常见误区

认为 include-package-data 单独生效：实际上需要配合 MANIFEST.in 或版本控制
忽略缓存问题：修改配置后应清理 build 和 dist 目录
过度依赖自动包含：显式声明比隐式规则更可靠

总结

理解 setuptools 中数据文件处理的逻辑关系，可以帮助开发者避免打包过程中的各种陷阱。通过合理组合 package-data 相关配置，可以精确控制哪些非 Python 文件会被包含在分发包中，确保项目部署时的行为符合预期。

setuptools

Official project repository for the Setuptools build system

项目地址：https://gitcode.com/gh_mirrors/se/setuptools

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

471

465

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Rust

2.08 K

216