BaseToolbox LogoBaseToolbox
Blog

© 2025 基础工具箱。保留所有权利。

隐私政策关于联系我们

AI 爬虫 robots.txt 怎么写?GPTBot、Google-Extended 和 PerplexityBot 要分开看

发布于 2026年6月30日

AI 爬虫规则已经变成技术 SEO 的一部分。最容易犯的错,是把所有 bot 都当成同一种东西:有的影响搜索或回答检索,有的和训练控制有关,普通 Googlebot、Bingbot 又会影响传统搜索收录。

先给结论:robots.txt 可以用来阻止 admin、account、staging 等非公开路径,但如果你的目标是被 AI 搜索和回答引用,不要盲目屏蔽所有 AI 相关爬虫。训练控制和搜索可见性要分开决策。

BaseToolbox 的 robots.txt 生成器 可以帮助生成 Allow 和 Disallow 规则,但最终策略仍然要由网站自己决定。

先确定目标

改 robots.txt 前,先问清楚你要什么:

目标 常见策略
不让 admin、staging、内部路径被抓 对这些路径设置 Disallow。
保持 Google 搜索可见 不要屏蔽公开页面的 Googlebot。
希望进入 AI 回答和引用 谨慎屏蔽 AI answer/search 相关爬虫。
降低训练使用 分别查看各平台训练或 AI 控制规则。
保护私密内容 不要只靠 robots.txt,必须做访问控制。

robots.txt 是爬虫指令,不是安全机制。真正的私密内容不能公开放着,只靠“请不要抓取”来保护。

常见 AI 相关 User-agent

截至 2026年6月30日,常见 AI 相关爬虫名称包括 OpenAI 的 GPTBot、ChatGPT-User、OAI-SearchBot,PerplexityBot,以及 Google 的 Google-Extended 控制项。平台名称和规则可能变化,发布最终策略前要看官方文档。

参考资料:

  • OpenAI crawlers and user agents
  • PerplexityBot documentation
  • Google common crawlers: Google-Extended
  • Google AI features and your website

常见写法

公开内容网站通常会保留公开页面可抓取,只屏蔽不该被抓的路径:

User-agent: *
Disallow: /admin/
Disallow: /account/
Disallow: /checkout/

Sitemap: https://example.com/sitemap.xml

如果你明确决定屏蔽某个 AI 爬虫,要写清楚具体 user-agent:

User-agent: GPTBot
Disallow: /

不要直接复制一大串“屏蔽 AI 爬虫名单”。看起来保护隐私的规则,也可能让公开优质内容更难被 AI 搜索系统发现和引用。

robots.txt 做不到什么?

robots.txt 不能:

  • 阻止知道 URL 的用户访问页面
  • 保护私密文件
  • 立即删除已经被索引的页面
  • 控制互联网上所有 AI 系统
  • 代替登录权限、noindex、HTTP header 或内容删除

私密区域要用登录和权限控制;不想出现在搜索结果里的页面要考虑 noindex;robots.txt 主要用于爬取指引。

发布前怎么审?

AI 爬虫策略最好不要只由一个人拍脑袋决定。SEO 负责确认公开页面仍然能被搜索和 AI 检索系统发现;法务或隐私负责人负责判断是否需要限制训练用途;工程侧负责确认真正私密的路径有登录和权限控制,而不是只写在 robots.txt 里。

发布前还要检查最终文件的 user-agent 分组。robots.txt 很容易因为一行 Disallow: / 放错位置,导致比预期更多的爬虫被挡住。改完后建议用测试工具或搜索引擎后台重新验证 sitemap、公开页面和重要工具页是否仍然可访问。

对于 BaseToolbox 这类静态工具站,更稳的策略通常是:工具页、博客、隐私说明、帮助内容保持可抓取;构建产物、内部路径、临时文件和不该公开的资源单独屏蔽。

还建议给 robots.txt 的重要改动留一条简短记录:改了哪些 user-agent、屏蔽了哪些路径、为什么改、什么时候上线。之后如果搜索收录、AI referral 或抓取日志出现变化,就能快速回到对应策略,而不是重新猜。

需要注意的是,robots.txt 不会让一个已经公开的页面变成私密页面。只要 URL 能被访问,用户、分享链接、浏览器和其他来源仍然可能打开它。敏感内容应该从源头移除或加权限。

如果你正在做 GEO,建议把 robots.txt 改动和 GA4、GSC、服务器日志一起看。单独看某一天的 AI referral 波动,很容易误判。至少观察几周,再判断引用和抓取趋势。重大规则上线前,也可以先在测试环境复核生成结果,避免误伤公开页面和工具页面。上线后记录日期,方便回滚和复盘。

一句话总结

如果目标包含 GEO 和 AI 可见性,不建议默认屏蔽所有 AI 相关爬虫。公开、有帮助、适合被引用的内容应保持可抓取;私密路径要屏蔽并做访问控制;训练控制则按各平台官方文档单独决定。

常见问题

允许 AI 爬虫就一定会被 ChatGPT 或 Perplexity 引用吗?

不会。允许访问只是前提。内容质量、权威性、更新频率、结构化程度和传统搜索可见性仍然重要。

要不要屏蔽 Google-Extended?

这是业务决策。先看 Google 官方说明,再判断它是否符合你的内容和 AI 训练策略。不要把它和阻止 Googlebot 搜索抓取混为一谈。

机密内容靠 robots.txt 够吗?

不够。机密内容应该加权限或移除公开访问。robots.txt 不是安全边界。

想直接试试看?

用我们的免费在线工具,把文章里的方法马上用起来。

生成 robots.txt