BaseToolbox LogoBaseToolbox
Blog

© 2025 基础工具箱。保留所有权利。

隐私政策关于联系我们

robots.txt 的 Allow 和 Disallow 怎么写?常见 SEO 示例

发布于 2026年6月25日

robots.txt 是控制爬虫抓取的文件,不是删除搜索结果的万能开关。

这一点很重要:被 robots.txt 禁止抓取的 URL,如果被其他页面链接到,仍然可能被搜索引擎发现,并以有限信息出现在搜索结果里。

基础 Allow 和 Disallow

屏蔽后台目录:

User-agent: *
Disallow: /admin/

允许抓取全站:

User-agent: *
Disallow:

禁止抓取全站:

User-agent: *
Disallow: /

最后一种要非常谨慎,它会让整个站点失去抓取入口。

在被屏蔽目录里放行某个子路径

对于 Google 等支持 Allow 的爬虫,可以在屏蔽目录里放行特定路径:

User-agent: *
Disallow: /private/
Allow: /private/public-guide/

通常更具体的匹配规则优先,但不同爬虫实现可能不同。重要规则上线前一定要测试。

不要误伤 CSS 和 JavaScript

搜索引擎可能需要页面资源来渲染和理解内容。不要用过宽的规则误封静态资源:

User-agent: *
Disallow: /api/
Disallow: /internal-search/
Allow: /_next/static/
Allow: /assets/

robots.txt 不是 noindex

robots.txt 适合管理抓取,不适合单独控制索引。如果页面被 robots.txt 禁止抓取,搜索引擎反而可能看不到页面里的 noindex。

简短结论

用 Disallow 减少低价值或私密路径抓取,用 Allow 放行重要子路径和静态资源,上线前测试规则。不要把 robots.txt 当作删除搜索结果的唯一手段。

实用流程

把 SEO 配置当作上线检查清单,而不是复制代码片段。先明确页面目标:你是在控制抓取、改善分享预览,还是描述页面可见内容。然后生成对应规则或标记,放到正确位置,并测试最终渲染页面。

很多 SEO 问题不是大策略错误,而是细节错误:图片地址不是完整 HTTPS、结构化数据和页面内容不一致、robots.txt 误封静态资源,或者继续依赖已经下线的搜索功能。配置完成后,要用真实 URL 测试,而不是只看源码片段。

检查清单

| 检查项 | 为什么重要 | |---|---| | 可见内容一致 | 结构化数据应该描述用户能看到的内容。 | | 完整 URL | 社交平台和爬虫更稳定地识别 HTTPS 绝对地址。 | | 抓取权限 | 重要图片、脚本和页面不要被 robots.txt 误封。 | | 最新规则 | 搜索功能会变化,旧的富结果技巧可能已经失效。 |

常见问题

配好这些就一定能排名或出富结果吗?

不能。它们帮助平台理解页面,但排名和展示还取决于内容质量、可抓取性、政策支持、页面体验和平台自己的展示规则。

使用场景示例

发布前要站在爬虫或社交预览工具的角度测试页面。robots.txt 要请求最终 URL,确认页面和资源没有被误封;Open Graph 要使用最终 HTTPS 图片地址,而不是本地路径;Schema 要逐条对照页面可见内容。

这样做能避免只复制片段却没有验证真实页面。SEO 配置很多时候不是大方向错,而是细节没有落到最终 URL。

robots.txt 不是权限控制

robots.txt 只能告诉合规爬虫哪些路径不希望被抓取,不能真正隐藏页面。被 Disallow 的 URL 仍可能通过外链、日志、站点地图、历史记录或分享链接被发现。私密内容应该用登录权限、删除公开访问或正确的 noindex 策略处理。

写规则时还要注意顺序和作用范围。/admin、/admin/、/*.pdf$ 这类写法影响不同路径,Allow 和 Disallow 的匹配也可能让结果和直觉不同。改动前最好先用测试工具检查关键 URL,而不是直接上线整份文件。

上线前测试关键 URL

改 robots.txt 前,先列出几类关键地址:希望被抓取的工具页、博客页、图片资源、站点地图,以及不希望浪费抓取预算的搜索页或参数页。规则写完后逐个测试。

不要只看文件语法是否正确,还要看最终匹配结果。一个多写或少写的斜杠,可能让整组 URL 的抓取状态和预期不同。

发布前要按最终 URL 测

用常见 robots.txt 示例理解 Allow、Disallow、静态资源放行、后台路径屏蔽,以及 robots.txt 和 noindex 的区别。 SEO 设置要放到最终 URL 上测试,而不是只看代码片段。抓取规则、预览图、结构化数据和页面正文必须互相匹配,否则工具显示通过,实际页面仍可能出问题。

可以用“生成 robots.txt”生成初稿,但发布前要挑几条代表性 URL 做回归:工具页、博客页、图片资源和站点地图都要看。改模板时也要重新测。

再多确认一步

用常见 robots.txt 示例理解 Allow、Disallow、静态资源放行、后台路径屏蔽,以及 robots.txt 和 noindex 的区别。 真正发布或使用前,建议拿一个最接近真实场景的例子再走一遍:看输入是否完整、输出是否能被目标平台接受,以及是否需要保留原始版本。这个检查很短,但能拦住很多“预览没问题、实际出错”的情况。

参考资料:

  • Google:robots.txt 介绍
  • Google:创建并提交 robots.txt

想直接试试看?

用我们的免费在线工具,把文章里的方法马上用起来。

生成 robots.txt