ai.robots.txt项目v1.31版本发布：增强AI爬虫管控能力

2025-06-18 05:44:18作者：冯梦姬Eddie

A list of AI agents and robots to block.

项目地址：https://gitcode.com/gh_mirrors/ai/ai.robots.txt

ai.robots.txt是一个专注于管理AI爬虫访问行为的开源项目，它通过标准的robots.txt协议为网站管理员提供了一套完整的解决方案，用于控制各类AI爬虫对网站内容的抓取行为。该项目持续更新维护，确保能够覆盖最新出现的AI爬虫。

版本更新亮点

v1.31版本带来了多项重要改进，主要聚焦于三个方面：新增AI爬虫识别规则、优化现有爬虫管控方式，以及提升文档清晰度。

新增AI爬虫识别

本次更新新增了对四种AI爬虫的识别和管控支持：

Google-CloudVertexBot：这是Google Cloud Vertex AI服务使用的爬虫，用于收集训练数据。将其加入黑名单可以防止Google的AI服务未经许可抓取网站内容。
MistralAI-User/1.0：来自法国AI公司Mistral AI的爬虫。Mistral AI专注于开发开源大语言模型，其爬虫可能用于收集训练数据。
wpbot：一个通用名称的网页爬虫，常用于内容聚合和AI训练数据收集。
更新Claude系列爬虫：对Anthropic公司Claude AI的爬虫进行了全面更新，确保能够识别最新版本的Claude爬虫。

管控方式优化

针对Microsoft Bing的爬虫，v1.31版本特别强调了使用X-Robots-Tag HTTP头作为替代管控方式的可行性。这种技术允许网站管理员在HTTP响应头中直接指定爬虫访问规则，为那些无法或不想使用robots.txt文件的网站提供了另一种选择。

X-Robots-Tag的使用示例：

X-Robots-Tag: bingbot: noindex

这行代码会指示Bing爬虫不要索引该页面内容，效果等同于在robots.txt中设置Disallow规则。

文档改进

项目README文档进行了两项重要更新：

开篇说明更加清晰地界定了该项目所针对的"AI代理"类型，帮助用户准确理解项目的适用范围。
对各类爬虫的管控方法进行了更详细的说明，特别是针对不同技术水平的用户提供了更易懂的指导。

技术意义与应用价值

ai.robots.txt项目的持续更新反映了AI爬虫生态的快速演变。随着越来越多的公司开发AI模型，网络爬虫的数量和种类呈指数级增长。这个项目为网站管理员提供了几个关键价值：

集中化管理：无需自行追踪各种AI爬虫的User-Agent，项目已经维护了一个全面的数据库。
标准化解决方案：使用业界通用的robots.txt标准，兼容所有主流网站服务器。
前瞻性保护：项目团队持续监控新出现的AI爬虫，及时更新规则库。
灵活管控：既支持传统的robots.txt方式，也推荐HTTP头等替代方案，适应不同技术环境。

实施建议

对于希望控制AI爬虫访问的网站管理员，建议：

定期更新robots.txt文件，纳入最新的ai.robots.txt规则。
对于高价值内容，考虑结合使用robots.txt和X-Robots-Tag双重保护。
监控服务器日志，留意是否有未列入清单的新AI爬虫访问。
关注项目更新，及时应用新版本提供的爬虫规则。

随着AI技术的普及，网络内容的版权保护和合理使用变得愈发重要。ai.robots.txt项目为这一挑战提供了实用、高效的解决方案，是每个重视内容保护的网站值得考虑的工具。

A list of AI agents and robots to block.

项目地址：https://gitcode.com/gh_mirrors/ai/ai.robots.txt

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理