無駄なクロールにさようなら、Googleがクロール量削減を目指す

[レベル: 上級]

今年の私の使命は、クロールの量をさらに減らし、ネットワーク上の転送データ量を削減することです。

Google の Gary Illyes(ゲイリー・イリース)氏が LinkedIn でこのように投稿しました。

Google の取り組み:洗練されたクロールとネットワーク効率化

イリース氏は次のように続けます。

数日前、Reddit のあるコミュニティで、Google のクロール頻度が去年と比べて減少したのではないか、という投稿がありました。大局的に見れば、それは間違いです。クロール量は以前とほぼ同じですが、スケジューリングがより緻密になったことで、クロールに値する可能性の高い URL に重点を置くようになっただけです。

それでも実際には、もっとクロール量を減らすべきだと考えています。たとえば、キャッシュの管理やユーザーエージェント間の内部キャッシュ共有をさらに改善し、通信量を減らすべきでしょう。

もし、この取り組みに役立ちそうな IETF(または他の標準化団体)のインターネットドラフトや、実際に見落としているかもしれない標準規格をご存知でしたら、ぜひ教えてください。クロール品質を犠牲にすることなく、クロール量を減らすことは、みんなにとって有益なはずです。

Googlebot のクロール量が減ったという事実はないそうです。
クロールが減ったと感じていたとしたら、それは、そのサイトをクロールする必要がないと Google が判断したからです。
もっと言えば、クロールするに値しないコンテンツだとみなされたからです。

クロールの必要性に影響する要因

クローラーの仕組みついてイリース氏が解説するポッドキャストを先日紹介しました。
このポッドキャストのなかで、クロールの頻度、いわゆるクロールバジェットを割り当てる際に Google が考慮する要因についてもイリース氏は言及していました。

  • 検索結果におけるサイトの重要性
  • コンテンツの質
  • 外部からのリンク数

「検索結果におけるサイトの重要性」は、サイトの信頼性・権威性と解釈していいでしょう。

高品質なコンテンツほど優先的にクロールされます。
スパムコンテンツは Google でなくてもクロールしたいとは思わないでしょう。

リンクは URL の発見はもとより、クロール対象の URL の選定にも影響します。

つまり、こうした要件を備えていればクロール頻度が減少するという現象は起こりにくいのです。

生成 AI の普及により、ウェブのコンテンツの量はさらに早いスピードで増えていくでしょう。
Google にとっては、本当に有益なコンテンツだけをクロールする対応がよりいっそう重要になります。
クロールするに値するサイト運営を僕たちは心がけなければなりません。