不要使用 403 或 404 进行速率限制

本文讲述了如何正确限制 Googlebot 的抓取速度。作者强调,为了减缓 Googlebot 对网站的抓取频率,有些网站所有者和 CDN 会返回 404 或其他 4xx 类别的客户端错误,但这样会对 Googlebot 不利。所有 4xx HTTP 状态码(429 除外)都会导致内容从 Google 搜索中删除;如果提供了一个带有 4xx HTTP 状态码的 robots.txt 文件,它会被认为不存在。正确的方式是使用 Search Console 暂时降低抓取速度或将 500、503 或 429 HTTP 状态代码返回给 Googlebot,以限制其抓取速度。

我们发现,在过去几个月里,有些网站所有者和 CDN 为了减缓 Googlebot 对他们网站的抓取频率,故意返回 404 或其他 4xx 类别的客户端错误,但不包括 429。(429 表示“请求过多”,客户端发送的请求超过了服务器的限制)。

这篇博文想要告诉您的是:不要使用 404 或其他 4xx 类别(除了 429)的客户端错误来误导 Googlebot;我们有专门的文档教您如何有效管理 Googlebot 的抓取速度,请仔细阅读并遵循我们的指导建议。

回归基础:4xx 错误是针对客户端返回的错误

4xx 类别的客户端错误是服务器告诉客户端请求出错或无法执行的信号。这类错误大部分都不严重,比如“未找到”、“禁止”、“我是茶壶”(真有这个错误)。它们并不意味着服务器本身有问题。

但 429 错误就不一样了,它代表“请求太多”。这是一个明确的信号,让任何遵守规则的机器人(包括我们可爱的 Googlebot)知道要放慢速度,否则会让服务器超负荷。

为什么 4xx 错误对限速 Googlebot 不利(429 除外)

客户端错误就是客户端的请求有问题。它们通常不会表示服务器有错误,比如超载或者无法响应。它们只是说明客户端需要修改请求。把 404 错误当成服务器过载是不对的。如果这样的话,您网站上的一个错误链接就会导致大量 404 错误,然后影响 Googlebot 的抓取速度。这样很不好。403、410、418 等错误也一样。

同样,429 状态代码是一个例外,它表示“请求太多”。

4xx 的速率限制对 Googlebot 有何影响

所有 4xx HTTP 状态码(429 除外)都会导致您的内容从 Google 搜索中删除。更糟糕的是,如果您提供了一个带有 4xx HTTP 状态码的 robots.txt 文件,它会被认为不存在。这意味着 Googlebot 不会遵循您在那里设置的规则,比如不允许抓取您的私密内容。这样的结果这对任何一方都没有好处。

降低 Googlebot 抓取速度的正确的方法

我们有大量关于 如何降低 Googlebot 的抓取速度 以及 Googlebot(和搜索索引)如何处理不同的 HTTP 状态代码的文档;一定要检查一下。简而言之,您想做以下任一事情:

如果您需要更多提示或说明,请关注我们的 Twitter 或在我们的 帮助论坛 中发帖。

谷饭原创编/译文章,作者:peter,转载请注明出处来自谷饭,并加入本文链接: https://www.goofan.com/2023/02/do-not-use-403-or-404-my-yum/

(0)
peter的头像peter谷饭作者
上一篇 2023年 2月 21日 下午3:07
下一篇 2023年 2月 25日 下午9:52

相关推荐

wechat
关注微信公众号