终极文件识别指南：如何使用file命令快速检测5000+文件格式

2026-05-06 09:57:15作者：殷蕙予

Read-only mirror of file CVS repository, updated every half hour. NOTE: do not make pull requests here, nor comment any commits, submit them usual way to bug tracker or to the mailing list. Maintainer(s) are not tracking this git mirror.

项目地址：https://gitcode.com/gh_mirrors/fi/file

在Linux和Unix系统中，你是否经常遇到无法确定文件类型的困扰？面对未知扩展名的文件，手动猜测既耗时又容易出错。file命令作为系统自带的文件类型识别工具，能够通过"魔法数字"技术准确识别超过5000种文件格式，从常见的图片文档到专业的二进制格式都能轻松应对。

项目核心亮点：为什么要使用file命令？

file命令是一个轻量级但功能强大的文件类型识别工具，它通过分析文件的二进制签名而不是仅依赖扩展名来识别文件类型。以下是它的核心优势：

智能识别技术：file命令使用三阶段检测法（文件系统测试、魔法数字测试、语言测试），确保识别结果高度准确。它不依赖文件扩展名，而是分析文件的实际内容，避免被恶意修改扩展名的文件欺骗。
广泛的格式支持：内置超过5000种文件格式的识别规则，涵盖图像、音频、视频、文档、可执行文件、压缩包等各种类型。这些规则存储在magic/Magdir目录下的数百个分类文件中。
跨平台兼容性：作为Unix/Linux系统的标准组件，file命令在所有主流Linux发行版、macOS和BSD系统中都可用。其Python绑定file-magic库也支持在Python程序中调用libmagic库的功能。
灵活的编程接口：除了命令行工具，file还提供libmagic库供开发者集成到自己的应用程序中。Python开发者可以直接使用file-magic库来识别文件类型，无需调用外部命令。
持续维护更新：项目由Christos Zoulas等人维护超过30年，持续更新新的文件格式识别规则，保持与现代文件格式的兼容性。

快速上手指南：三步掌握file命令核心用法

第一步：安装与验证

首先克隆项目仓库并构建file命令：

git clone https://gitcode.com/gh_mirrors/fi/file
cd file
./configure
make
sudo make install

验证安装是否成功：

file --version

大多数Linux系统已预装file命令，可以直接使用。

第二步：基础文件识别

最基本的用法是直接对文件进行识别：

file example.jpg
file document.pdf
file archive.zip

file命令会输出文件的详细类型信息，如：

example.jpg: JPEG image data, JFIF standard 1.01
document.pdf: PDF document, version 1.7
archive.zip: Zip archive data, at least v2.0 to extract

第三步：高级识别选项

file命令提供多种选项增强识别能力：

批量识别多个文件：

file *.txt *.jpg *.pdf

显示MIME类型：

file --mime-type example.jpg
# 输出：example.jpg: image/jpeg

显示字符编码：

file --mime-encoding document.txt
# 输出：document.txt: utf-8

不显示文件名（简洁模式）：

file -b example.jpg
# 输出：JPEG image data, JFIF standard 1.01

压缩文件内容识别：

file -z archive.tar.gz
# 输出：archive.tar.gz: gzip compressed data, ...

递归识别目录：

file -r directory/

第四步：Python集成使用

通过Python的file-magic库，可以在程序中识别文件类型：

import magic

# 方法1：使用detect_from_filename
detected = magic.detect_from_filename('example.jpg')
print(f'MIME类型: {detected.mime_type}')
print(f'编码: {detected.encoding}')
print(f'文件类型: {detected.name}')

# 方法2：使用magic.open
ms = magic.open(magic.NONE)
ms.load()
file_type = ms.file('/bin/ls')
print(f'文件类型: {file_type}')

# 方法3：识别内存中的缓冲区
with open('/bin/ls', 'rb') as f:
    buf = f.read(4096)
    buffer_type = ms.buffer(buf)
    print(f'缓冲区类型: {buffer_type}')

ms.close()

第五步：自定义魔法文件

file命令的识别规则存储在魔法文件中，可以自定义或扩展：

查看默认魔法文件位置：

file -C

使用自定义魔法文件：

file -m custom.magic unknown_file

魔法文件格式示例（识别Python脚本）：

0 string/t """ Python script text executable
0 belong 0x02099900 python 1.0 byte-compiled
!:mime application/x-bytecode.python

进阶技巧：专业用户的文件识别秘籍

1. 文件类型深度分析

对于可疑文件，可以结合多个选项进行深度分析：

# 详细分析可执行文件
file -b -e soft -e ascii -e encoding /usr/bin/ls

# 识别符号链接指向的实际文件类型
file -L symlink_file

2. 集成到脚本和自动化流程

将file命令集成到Bash脚本中实现自动文件处理：

#!/bin/bash
for f in *; do
    filetype=$(file -b --mime-type "$f")
    case "$filetype" in
        image/*) echo "处理图片: $f" ;;
        text/*) echo "处理文本: $f" ;;
        application/pdf) echo "处理PDF: $f" ;;
        *) echo "未知类型: $f ($filetype)" ;;
    esac
done

3. 调试和问题排查

当file命令识别不准确时，可以使用调试模式：

# 显示详细的识别过程
file -d unknown_file

# 查看所有可用的测试类型
file -l

4. 扩展识别规则

如果需要识别新的文件格式，可以编辑magic/Magdir目录下的对应文件或创建新的魔法文件。每个魔法文件包含特定类别的文件识别规则，如magic/Magdir/images用于图像格式，magic/Magdir/archive用于压缩格式。

总结与资源

file命令作为Unix/Linux系统的瑞士军刀，是每个系统管理员和开发者的必备工具。通过其强大的文件识别能力和灵活的编程接口，可以轻松解决文件类型识别的各种需求。

核心资源路径：

主要源代码：src/file.c - file命令主程序
核心库文件：src/magic.c - libmagic库实现
魔法规则目录：magic/Magdir/ - 5000+文件格式识别规则
Python绑定：python/magic.py - Python接口
使用示例：python/example.py - Python使用示例
测试用例：tests/ - 完整的测试文件集合

官方文档入口：

完整手册：doc/file.man - 详细的man page文档
魔法文件格式：doc/magic.man - 魔法文件格式说明
构建配置：configure.ac - 构建系统配置
安装指南：INSTALL - 完整的安装说明

掌握file命令不仅能提高日常工作效率，还能在安全分析、数字取证、数据恢复等专业场景中发挥重要作用。无论是简单的文件类型检查，还是复杂的自动化文件处理流程，file命令都是不可或缺的工具。

file

项目地址：https://gitcode.com/gh_mirrors/fi/file

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

416

341

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

基于服务器管理南向接口技术要求实现的部件驱动库。Hardware component drivers framework with unified management interface

C++

cherry-studio

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

TypeScript

1.43 K

116