AI 爬虫 robots.txt 怎么写？GPTBot、Google-Extended 和 PerplexityBot 要分开看

AI 爬虫规则已经变成技术 SEO 的一部分。最容易犯的错，是把所有 bot 都当成同一种东西：有的影响搜索或回答检索，有的和训练控制有关，普通 Googlebot、Bingbot 又会影响传统搜索收录。

先给结论：robots.txt 可以用来阻止 admin、account、staging 等非公开路径，但如果你的目标是被 AI 搜索和回答引用，不要盲目屏蔽所有 AI 相关爬虫。训练控制和搜索可见性要分开决策。

BaseToolbox 的 robots.txt 生成器可以帮助生成 Allow 和 Disallow 规则，但最终策略仍然要由网站自己决定。

先确定目标

改 robots.txt 前，先问清楚你要什么：

目标	常见策略
不让 admin、staging、内部路径被抓	对这些路径设置 Disallow。
保持 Google 搜索可见	不要屏蔽公开页面的 Googlebot。
希望进入 AI 回答和引用	谨慎屏蔽 AI answer/search 相关爬虫。
降低训练使用	分别查看各平台训练或 AI 控制规则。
保护私密内容	不要只靠 robots.txt，必须做访问控制。

robots.txt 是爬虫指令，不是安全机制。真正的私密内容不能公开放着，只靠“请不要抓取”来保护。

常见 AI 相关 User-agent

截至 2026年6月30日，常见 AI 相关爬虫名称包括 OpenAI 的 GPTBot、ChatGPT-User、OAI-SearchBot，PerplexityBot，以及 Google 的 Google-Extended 控制项。平台名称和规则可能变化，发布最终策略前要看官方文档。

参考资料：

常见写法

公开内容网站通常会保留公开页面可抓取，只屏蔽不该被抓的路径：

User-agent: *
Disallow: /admin/
Disallow: /account/
Disallow: /checkout/

Sitemap: https://example.com/sitemap.xml

如果你明确决定屏蔽某个 AI 爬虫，要写清楚具体 user-agent：

User-agent: GPTBot
Disallow: /

不要直接复制一大串“屏蔽 AI 爬虫名单”。看起来保护隐私的规则，也可能让公开优质内容更难被 AI 搜索系统发现和引用。

robots.txt 做不到什么？

robots.txt 不能：

阻止知道 URL 的用户访问页面
保护私密文件
立即删除已经被索引的页面
控制互联网上所有 AI 系统
代替登录权限、noindex、HTTP header 或内容删除

私密区域要用登录和权限控制；不想出现在搜索结果里的页面要考虑 noindex；robots.txt 主要用于爬取指引。

发布前怎么审？

AI 爬虫策略最好不要只由一个人拍脑袋决定。SEO 负责确认公开页面仍然能被搜索和 AI 检索系统发现；法务或隐私负责人负责判断是否需要限制训练用途；工程侧负责确认真正私密的路径有登录和权限控制，而不是只写在 robots.txt 里。

发布前还要检查最终文件的 user-agent 分组。robots.txt 很容易因为一行 Disallow: / 放错位置，导致比预期更多的爬虫被挡住。改完后建议用测试工具或搜索引擎后台重新验证 sitemap、公开页面和重要工具页是否仍然可访问。

对于 BaseToolbox 这类静态工具站，更稳的策略通常是：工具页、博客、隐私说明、帮助内容保持可抓取；构建产物、内部路径、临时文件和不该公开的资源单独屏蔽。

还建议给 robots.txt 的重要改动留一条简短记录：改了哪些 user-agent、屏蔽了哪些路径、为什么改、什么时候上线。之后如果搜索收录、AI referral 或抓取日志出现变化，就能快速回到对应策略，而不是重新猜。

需要注意的是，robots.txt 不会让一个已经公开的页面变成私密页面。只要 URL 能被访问，用户、分享链接、浏览器和其他来源仍然可能打开它。敏感内容应该从源头移除或加权限。

如果你正在做 GEO，建议把 robots.txt 改动和 GA4、GSC、服务器日志一起看。单独看某一天的 AI referral 波动，很容易误判。至少观察几周，再判断引用和抓取趋势。重大规则上线前，也可以先在测试环境复核生成结果，避免误伤公开页面和工具页面。上线后记录日期，方便回滚和复盘。

一句话总结

如果目标包含 GEO 和 AI 可见性，不建议默认屏蔽所有 AI 相关爬虫。公开、有帮助、适合被引用的内容应保持可抓取；私密路径要屏蔽并做访问控制；训练控制则按各平台官方文档单独决定。

常见问题

允许 AI 爬虫就一定会被 ChatGPT 或 Perplexity 引用吗？

不会。允许访问只是前提。内容质量、权威性、更新频率、结构化程度和传统搜索可见性仍然重要。

要不要屏蔽 Google-Extended？

这是业务决策。先看 Google 官方说明，再判断它是否符合你的内容和 AI 训练策略。不要把它和阻止 Googlebot 搜索抓取混为一谈。

机密内容靠 robots.txt 够吗？

不够。机密内容应该加权限或移除公开访问。robots.txt 不是安全边界。

BaseToolbox 的 robots.txt 生成器可以帮助生成 Allow 和 Disallow 规则，但最终策略仍然要由网站自己决定。

先确定目标

改 robots.txt 前，先问清楚你要什么：

目标	常见策略
不让 admin、staging、内部路径被抓	对这些路径设置 Disallow。
保持 Google 搜索可见	不要屏蔽公开页面的 Googlebot。
希望进入 AI 回答和引用	谨慎屏蔽 AI answer/search 相关爬虫。
降低训练使用	分别查看各平台训练或 AI 控制规则。
保护私密内容	不要只靠 robots.txt，必须做访问控制。

robots.txt 是爬虫指令，不是安全机制。真正的私密内容不能公开放着，只靠“请不要抓取”来保护。

常见 AI 相关 User-agent

参考资料：

常见写法

公开内容网站通常会保留公开页面可抓取，只屏蔽不该被抓的路径：

User-agent: *
Disallow: /admin/
Disallow: /account/
Disallow: /checkout/

Sitemap: https://example.com/sitemap.xml

如果你明确决定屏蔽某个 AI 爬虫，要写清楚具体 user-agent：

User-agent: GPTBot
Disallow: /

不要直接复制一大串“屏蔽 AI 爬虫名单”。看起来保护隐私的规则，也可能让公开优质内容更难被 AI 搜索系统发现和引用。

robots.txt 做不到什么？

robots.txt 不能：

阻止知道 URL 的用户访问页面
保护私密文件
立即删除已经被索引的页面
控制互联网上所有 AI 系统
代替登录权限、noindex、HTTP header 或内容删除

私密区域要用登录和权限控制；不想出现在搜索结果里的页面要考虑 noindex；robots.txt 主要用于爬取指引。

发布前怎么审？

一句话总结

常见问题

允许 AI 爬虫就一定会被 ChatGPT 或 Perplexity 引用吗？

不会。允许访问只是前提。内容质量、权威性、更新频率、结构化程度和传统搜索可见性仍然重要。

要不要屏蔽 Google-Extended？

这是业务决策。先看 Google 官方说明，再判断它是否符合你的内容和 AI 训练策略。不要把它和阻止 Googlebot 搜索抓取混为一谈。

机密内容靠 robots.txt 够吗？

不够。机密内容应该加权限或移除公开访问。robots.txt 不是安全边界。

AI 爬虫 robots.txt 怎么写？GPTBot、Google-Extended 和 PerplexityBot 要分开看

先确定目标

常见 AI 相关 User-agent

常见写法

robots.txt 做不到什么？

发布前怎么审？

一句话总结

常见问题

允许 AI 爬虫就一定会被 ChatGPT 或 Perplexity 引用吗？

要不要屏蔽 Google-Extended？

机密内容靠 robots.txt 够吗？

想直接试试看？

AI 爬虫 robots.txt 怎么写？GPTBot、Google-Extended 和 PerplexityBot 要分开看

先确定目标

常见 AI 相关 User-agent

常见写法

robots.txt 做不到什么？

发布前怎么审？

一句话总结

常见问题

允许 AI 爬虫就一定会被 ChatGPT 或 Perplexity 引用吗？

要不要屏蔽 Google-Extended？

机密内容靠 robots.txt 够吗？

想直接试试看？