[レベル: 上級]
Googlebot のクロールプロセスについて検索セントラブログが解説しました。
日本語翻訳の記事公開までには数週間程度かかると思われるので、この記事で概要を紹介します。
クロールとは?
Googlebot は、新しいウェブページを発見したり更新されたウェブページを再訪問したりして、そのコンテンツをインデックス化して検索結果に表示できるようにするためにクロールを実行します。
このプロセスには、URLの取得や、エラー/リダイレクトの管理、インデックス化のためのデータ処理が含まれます。
HTML だけでなく、JavaScript や CSS、画像、動画など、最新のウェブページをレンダリングするために不可欠なリソースもクロールに含まれます。
クロールとレンダリングのプロセス
Googlebotは、構造化されたプロセスに従います。
- 初期データの取得: URLからHTMLをダウンロードする
- レンダリングの準備: データを ウェブ レンダリング サービス(WRS)に転送する
- リソースのダウンロード: JavaScript や CSS など、参照されているすべてのリソースを WRS が取得する
- ページの構築: ブラウザのレンダリングをシミュレートして、完全なページを WRS が生成する
WRS はブラウザと同等の処理を実行しますが、ブラウザとは異なり、サーバーの負荷などのスケジューリング上の考慮事項により、レンダリングにより時間がかかる場合があります。
クロールバジェットとリソース管理
クロールバジェットは、ウェブサイトのクロールの頻度と範囲を定義します。
次の要素にクロールバジェットは影響を受ける可能性があります。
- レンダリングに必要なリソースの量
- ホスティングドメインの処理能力
クロールバジェットを最適化する手段として次が推奨されます。
- ユーザーエクスペリエンスを損なうことなく、必須リソースを最小限に抑える
- 負荷の高いリソースには、個別のホスト名(例:CDN やサブドメイン)を使用する
- 不要な再クロールを強制するキャッシュ バスティング パラメータの過度な使用を避ける
📝すずき補足:「キャッシュ バスティング パラメータ (cache-busting parameters)」とは、main.css?ver=1
やmain.css?ver=2
のようにパラメータを追加することで URL を変更し、キャッシュではなく最新のリソースを取得するようにするトリック
Googlebot は独自のキャッシング機能を活用し、サイト側の HTTP キャッシュ設定に関係なく、WRS にリソースを最大 30 日間保存します。
これにより、繰り返しのクロールが減り、クロールバジェットの節約に役立ちます。
robots.txt
に関する考慮事項
robots.txt
を使用してリソースのクロールをブロックすると問題が生じる場合があります。
レンダリングで重要なリソースを WRS が取得できないと、 コンテンツの抽出や適切なランキングに悪影響を与えるかもしれません。
監視と分析
次の方法で Googlebot のアクティビティを確認できます。
- サーバーアクセスログ: クローラーによるすべてのURLリクエストの記録が含まれている
- Search Console クロール統計レポート: リソース固有のクロールに関する詳細な情報を提供する
主要ポイントにフォーカスして元の記事を概説しましたが、英語で読める方は直接、英語で読みたくない方は翻訳ツールや生成 AI を利用して全文を自分で読むといいでしょう。
Googlebot のクロールに関して、あまり触れられることのない細部にわたる知識を得られます。
テクニカル SEO に精通しているなら既知の情報かもしれませんが、再確認という点で役立つはずです。
Googlebot のクロールのこうした詳細情報はシリーズとして、これ以降もブログで毎週公開するとのことです。