robots.txt 的 Allow 和 Disallow 怎么写？常见 SEO 示例

robots.txt 是控制爬虫抓取的文件，不是删除搜索结果的万能开关。

这一点很重要：被 robots.txt 禁止抓取的 URL，如果被其他页面链接到，仍然可能被搜索引擎发现，并以有限信息出现在搜索结果里。

基础 Allow 和 Disallow

屏蔽后台目录：

User-agent: *
Disallow: /admin/

允许抓取全站：

User-agent: *
Disallow:

禁止抓取全站：

User-agent: *
Disallow: /

最后一种要非常谨慎，它会让整个站点失去抓取入口。

在被屏蔽目录里放行某个子路径

对于 Google 等支持 Allow 的爬虫，可以在屏蔽目录里放行特定路径：

User-agent: *
Disallow: /private/
Allow: /private/public-guide/

通常更具体的匹配规则优先，但不同爬虫实现可能不同。重要规则上线前一定要测试。

不要误伤 CSS 和 JavaScript

搜索引擎可能需要页面资源来渲染和理解内容。不要用过宽的规则误封静态资源：

User-agent: *
Disallow: /api/
Disallow: /internal-search/
Allow: /_next/static/
Allow: /assets/

robots.txt 不是 noindex

robots.txt 适合管理抓取，不适合单独控制索引。如果页面被 robots.txt 禁止抓取，搜索引擎反而可能看不到页面里的 noindex。

简短结论

用 Disallow 减少低价值或私密路径抓取，用 Allow 放行重要子路径和静态资源，上线前测试规则。不要把 robots.txt 当作删除搜索结果的唯一手段。

实用流程

把 SEO 配置当作上线检查清单，而不是复制代码片段。先明确页面目标：你是在控制抓取、改善分享预览，还是描述页面可见内容。然后生成对应规则或标记，放到正确位置，并测试最终渲染页面。

很多 SEO 问题不是大策略错误，而是细节错误：图片地址不是完整 HTTPS、结构化数据和页面内容不一致、robots.txt 误封静态资源，或者继续依赖已经下线的搜索功能。配置完成后，要用真实 URL 测试，而不是只看源码片段。

检查清单

| 检查项 | 为什么重要 | |---|---| | 可见内容一致 | 结构化数据应该描述用户能看到的内容。 | | 完整 URL | 社交平台和爬虫更稳定地识别 HTTPS 绝对地址。 | | 抓取权限 | 重要图片、脚本和页面不要被 robots.txt 误封。 | | 最新规则 | 搜索功能会变化，旧的富结果技巧可能已经失效。 |

常见问题

配好这些就一定能排名或出富结果吗？

不能。它们帮助平台理解页面，但排名和展示还取决于内容质量、可抓取性、政策支持、页面体验和平台自己的展示规则。

使用场景示例

发布前要站在爬虫或社交预览工具的角度测试页面。robots.txt 要请求最终 URL，确认页面和资源没有被误封；Open Graph 要使用最终 HTTPS 图片地址，而不是本地路径；Schema 要逐条对照页面可见内容。

这样做能避免只复制片段却没有验证真实页面。SEO 配置很多时候不是大方向错，而是细节没有落到最终 URL。

robots.txt 不是权限控制

robots.txt 只能告诉合规爬虫哪些路径不希望被抓取，不能真正隐藏页面。被 Disallow 的 URL 仍可能通过外链、日志、站点地图、历史记录或分享链接被发现。私密内容应该用登录权限、删除公开访问或正确的 noindex 策略处理。

写规则时还要注意顺序和作用范围。/admin、/admin/、/*.pdf$ 这类写法影响不同路径，Allow 和 Disallow 的匹配也可能让结果和直觉不同。改动前最好先用测试工具检查关键 URL，而不是直接上线整份文件。

上线前测试关键 URL

改 robots.txt 前，先列出几类关键地址：希望被抓取的工具页、博客页、图片资源、站点地图，以及不希望浪费抓取预算的搜索页或参数页。规则写完后逐个测试。

不要只看文件语法是否正确，还要看最终匹配结果。一个多写或少写的斜杠，可能让整组 URL 的抓取状态和预期不同。

发布前要按最终 URL 测

用常见 robots.txt 示例理解 Allow、Disallow、静态资源放行、后台路径屏蔽，以及 robots.txt 和 noindex 的区别。 SEO 设置要放到最终 URL 上测试，而不是只看代码片段。抓取规则、预览图、结构化数据和页面正文必须互相匹配，否则工具显示通过，实际页面仍可能出问题。

可以用“生成 robots.txt”生成初稿，但发布前要挑几条代表性 URL 做回归：工具页、博客页、图片资源和站点地图都要看。改模板时也要重新测。

再多确认一步

用常见 robots.txt 示例理解 Allow、Disallow、静态资源放行、后台路径屏蔽，以及 robots.txt 和 noindex 的区别。真正发布或使用前，建议拿一个最接近真实场景的例子再走一遍：看输入是否完整、输出是否能被目标平台接受，以及是否需要保留原始版本。这个检查很短，但能拦住很多“预览没问题、实际出错”的情况。

参考资料：

robots.txt 是控制爬虫抓取的文件，不是删除搜索结果的万能开关。

这一点很重要：被 robots.txt 禁止抓取的 URL，如果被其他页面链接到，仍然可能被搜索引擎发现，并以有限信息出现在搜索结果里。

基础 Allow 和 Disallow

屏蔽后台目录：

User-agent: *
Disallow: /admin/

允许抓取全站：

User-agent: *
Disallow:

禁止抓取全站：

User-agent: *
Disallow: /

最后一种要非常谨慎，它会让整个站点失去抓取入口。

在被屏蔽目录里放行某个子路径

对于 Google 等支持 Allow 的爬虫，可以在屏蔽目录里放行特定路径：

User-agent: *
Disallow: /private/
Allow: /private/public-guide/

通常更具体的匹配规则优先，但不同爬虫实现可能不同。重要规则上线前一定要测试。

不要误伤 CSS 和 JavaScript

搜索引擎可能需要页面资源来渲染和理解内容。不要用过宽的规则误封静态资源：

User-agent: *
Disallow: /api/
Disallow: /internal-search/
Allow: /_next/static/
Allow: /assets/

robots.txt 不是 noindex

robots.txt 适合管理抓取，不适合单独控制索引。如果页面被 robots.txt 禁止抓取，搜索引擎反而可能看不到页面里的 noindex。

简短结论

用 Disallow 减少低价值或私密路径抓取，用 Allow 放行重要子路径和静态资源，上线前测试规则。不要把 robots.txt 当作删除搜索结果的唯一手段。

实用流程

检查清单

常见问题

配好这些就一定能排名或出富结果吗？

不能。它们帮助平台理解页面，但排名和展示还取决于内容质量、可抓取性、政策支持、页面体验和平台自己的展示规则。

使用场景示例

这样做能避免只复制片段却没有验证真实页面。SEO 配置很多时候不是大方向错，而是细节没有落到最终 URL。

robots.txt 不是权限控制

上线前测试关键 URL

不要只看文件语法是否正确，还要看最终匹配结果。一个多写或少写的斜杠，可能让整组 URL 的抓取状态和预期不同。

发布前要按最终 URL 测

可以用“生成 robots.txt”生成初稿，但发布前要挑几条代表性 URL 做回归：工具页、博客页、图片资源和站点地图都要看。改模板时也要重新测。

再多确认一步

参考资料：

robots.txt 的 Allow 和 Disallow 怎么写？常见 SEO 示例

基础 Allow 和 Disallow

在被屏蔽目录里放行某个子路径

不要误伤 CSS 和 JavaScript

robots.txt 不是 noindex

简短结论

实用流程

检查清单

常见问题

配好这些就一定能排名或出富结果吗？

使用场景示例

robots.txt 不是权限控制

上线前测试关键 URL

发布前要按最终 URL 测

再多确认一步

想直接试试看？

robots.txt 的 Allow 和 Disallow 怎么写？常见 SEO 示例

基础 Allow 和 Disallow

在被屏蔽目录里放行某个子路径

不要误伤 CSS 和 JavaScript

robots.txt 不是 noindex

简短结论

实用流程

检查清单

常见问题

配好这些就一定能排名或出富结果吗？

使用场景示例

robots.txt 不是权限控制

上线前测试关键 URL

发布前要按最终 URL 测

再多确认一步

想直接试试看？