Googlebotによるクロールの悪い急増加を引き起こす2つの主な原因

[レベル: 上級]

Googlebot によるクロールの急増が悪い兆候を示すときのありがちな 2 つの原因を、Google の Gary Illyes(ゲイリー・イリース)氏が LinkedIn で共有しました。

無限スペースとハッキングされたコンテンツ

イリース氏による投稿の日本語訳です。

検索エンジンが突然あなたのサイトを猛烈にクロールし始めても、早まって喜んではいけない。

クロールの急増は良いことを意味する可能性もあるが、何か問題がある可能性も示唆している。クロールの急増を見たときによく起こる2つの問題を紹介する:

  1. 無限スペース:サイトにカレンダー機能や無限にフィルタリング可能な商品リストページがある場合。一般的に検索ユーザーにとって有用なページがサイトにある場合、クローラーはしばらくの間これらの無限スペースに勢いづいてしまう。robots.txt を活用し(てクロールを抑え)よう。
  2. ハッキングされたコンテンツ:悪意のある人がサーバーのファイルシステムやコンテンツ管理システムにアクセスできた場合、優れたサイトにゴミを大量に投入する可能性がある。一般的に検索ユーザーにとって有用なページがサイトにある場合、クローラーはしばらくの間これらの新しいページに勢いづいてし、喜んでクロールする。このような場合の対処法については、https://web.dev/hacked に優れたリソースがある。

クロールの予期せぬ急増は、それが問題ないと証明できるまでは、問題の症状として扱うべだ。まあ、私が極端な悲観主義者なだけかもしれないが。

クロールの悪い急増

クロールの急増加は必ずしも悪いことではありません。

たとえば、サイト全体での HTTP から HTTPS への切り替えや、ドメイン名の変更を伴うサイト移転を実行するとクロールが著しく活発になります。
しかしこの活発化によるクロール増加は、サイトの URL 構造に著しい変化が起きたことを Googlebot が検知し、新しい URL を認識しようとするために発生します。
むしろ良いクロール急増化です。

一方で、悪いクロール急増加で、ありがちな 2 つの原因をイリース氏は指摘したのです。

無限スペース

「無限スペース (infinite spaces)」というのは、URL が延々と生成されてしまう状況です。
例に挙がっているカレンダーであれば、未来なら事実上は、何年先、何十年先、何百年先にも行きつけます。
各年月に固有の URL を割り当てていたとしたら、無限に URL が生成されてしまいます。

サイト全体として高品質なコンテンツを提供している場合は、たとえカレンダーの URL であったとしても有益なコンテンツに違いないと Googlebot が勘違いしてクロールしてしまう可能性があるというのです。

無限スペース以外にも、クロールの不要な増加を起こしうる URL の問題が「Google における URL 構造のベスト プラクティス」に載っています。
並べ替えパラメータやセッション ID、破損した相対リンクなどです。
対処方法も書かれているので、目をとおしておくといいでしょう。

ハッキング

ハッキングされた場合にもクロールの急増加が見られるとのことです。

ハッカーが侵入して差し込んだページのコンテンツが高品質であるはずはないのですが、サイトの評価が高いと、少なくとも初期段階では高品質なページが増えたと誤解してクロールしてしまうのです。
挿入されたページが大量だとクロールの急増加につながります。

もっとも、ハッキングに関してはクロールの増加にとどまらない悪い事態になっているので、大至急対処すべきではあります。
ハッキングされたことの確かめ方と対処方法は web.dev サイトにドキュメントがあります。

クロールの予期せぬ急激な増加に直面したときは、無限スペースとハッキングをまず疑ってみましょう。

#SEO #Googlebot #クロール