AI 爬虫 robots.txt 怎么写?GPTBot、Google-Extended 和 PerplexityBot 要分开看
AI 爬虫规则已经变成技术 SEO 的一部分。最容易犯的错,是把所有 bot 都当成同一种东西:有的影响搜索或回答检索,有的和训练控制有关,普通 Googlebot、Bingbot 又会影响传统搜索收录。
先给结论:robots.txt 可以用来阻止 admin、account、staging 等非公开路径,但如果你的目标是被 AI 搜索和回答引用,不要盲目屏蔽所有 AI 相关爬虫。训练控制和搜索可见性要分开决策。
BaseToolbox 的 robots.txt 生成器 可以帮助生成 Allow 和 Disallow 规则,但最终策略仍然要由网站自己决定。
先确定目标
改 robots.txt 前,先问清楚你要什么:
| 目标 | 常见策略 |
|---|---|
| 不让 admin、staging、内部路径被抓 | 对这些路径设置 Disallow。 |
| 保持 Google 搜索可见 | 不要屏蔽公开页面的 Googlebot。 |
| 希望进入 AI 回答和引用 | 谨慎屏蔽 AI answer/search 相关爬虫。 |
| 降低训练使用 | 分别查看各平台训练或 AI 控制规则。 |
| 保护私密内容 | 不要只靠 robots.txt,必须做访问控制。 |
robots.txt 是爬虫指令,不是安全机制。真正的私密内容不能公开放着,只靠“请不要抓取”来保护。
常见 AI 相关 User-agent
截至 2026年6月30日,常见 AI 相关爬虫名称包括 OpenAI 的 GPTBot、ChatGPT-User、OAI-SearchBot,PerplexityBot,以及 Google 的 Google-Extended 控制项。平台名称和规则可能变化,发布最终策略前要看官方文档。
参考资料:
- OpenAI crawlers and user agents
- PerplexityBot documentation
- Google common crawlers: Google-Extended
- Google AI features and your website
常见写法
公开内容网站通常会保留公开页面可抓取,只屏蔽不该被抓的路径:
User-agent: *
Disallow: /admin/
Disallow: /account/
Disallow: /checkout/
Sitemap: https://example.com/sitemap.xml
如果你明确决定屏蔽某个 AI 爬虫,要写清楚具体 user-agent:
User-agent: GPTBot
Disallow: /
不要直接复制一大串“屏蔽 AI 爬虫名单”。看起来保护隐私的规则,也可能让公开优质内容更难被 AI 搜索系统发现和引用。
robots.txt 做不到什么?
robots.txt 不能:
- 阻止知道 URL 的用户访问页面
- 保护私密文件
- 立即删除已经被索引的页面
- 控制互联网上所有 AI 系统
- 代替登录权限、
noindex、HTTP header 或内容删除
私密区域要用登录和权限控制;不想出现在搜索结果里的页面要考虑 noindex;robots.txt 主要用于爬取指引。
发布前怎么审?
AI 爬虫策略最好不要只由一个人拍脑袋决定。SEO 负责确认公开页面仍然能被搜索和 AI 检索系统发现;法务或隐私负责人负责判断是否需要限制训练用途;工程侧负责确认真正私密的路径有登录和权限控制,而不是只写在 robots.txt 里。
发布前还要检查最终文件的 user-agent 分组。robots.txt 很容易因为一行 Disallow: / 放错位置,导致比预期更多的爬虫被挡住。改完后建议用测试工具或搜索引擎后台重新验证 sitemap、公开页面和重要工具页是否仍然可访问。
对于 BaseToolbox 这类静态工具站,更稳的策略通常是:工具页、博客、隐私说明、帮助内容保持可抓取;构建产物、内部路径、临时文件和不该公开的资源单独屏蔽。
还建议给 robots.txt 的重要改动留一条简短记录:改了哪些 user-agent、屏蔽了哪些路径、为什么改、什么时候上线。之后如果搜索收录、AI referral 或抓取日志出现变化,就能快速回到对应策略,而不是重新猜。
需要注意的是,robots.txt 不会让一个已经公开的页面变成私密页面。只要 URL 能被访问,用户、分享链接、浏览器和其他来源仍然可能打开它。敏感内容应该从源头移除或加权限。
如果你正在做 GEO,建议把 robots.txt 改动和 GA4、GSC、服务器日志一起看。单独看某一天的 AI referral 波动,很容易误判。至少观察几周,再判断引用和抓取趋势。重大规则上线前,也可以先在测试环境复核生成结果,避免误伤公开页面和工具页面。上线后记录日期,方便回滚和复盘。
一句话总结
如果目标包含 GEO 和 AI 可见性,不建议默认屏蔽所有 AI 相关爬虫。公开、有帮助、适合被引用的内容应保持可抓取;私密路径要屏蔽并做访问控制;训练控制则按各平台官方文档单独决定。
常见问题
允许 AI 爬虫就一定会被 ChatGPT 或 Perplexity 引用吗?
不会。允许访问只是前提。内容质量、权威性、更新频率、结构化程度和传统搜索可见性仍然重要。
要不要屏蔽 Google-Extended?
这是业务决策。先看 Google 官方说明,再判断它是否符合你的内容和 AI 训练策略。不要把它和阻止 Googlebot 搜索抓取混为一谈。
机密内容靠 robots.txt 够吗?
不够。机密内容应该加权限或移除公开访问。robots.txt 不是安全边界。