[レベル: 上級]
Google は、クローラーを解説する技術ドキュメントを再構成しました。
クローラを 3 タイプに分類
役割とトリガーに基づいて、クローラーを 3 タイプに分類しました。
以前は、すべてのクローラーをまとめてリストしていました。
分類は次の 3 タイプです。
一般的なクローラー
「一般的なクローラー」は、主に検索のインデックスに用いられるクローラーです。
ウェブ検索用の Googlebot (スマートフォン用 Googlebot と パソコン用 Googlebot) や、画像検索用の Googlebot-Image、Google ニュース用の Googlebot-News などが該当します。
一般的なクローラーには、GoogleOther という新しいクローラーが加わっています。
内部的に利用されるクローラーです。
通常、Googlebot は、僕たちが使う、一般公開されている検索サービスのためのインデックス構築のために使われます。
対して、GoogleOther は一般にアクセス可能なコンテンツをサイトから取得するために、さまざまなプロダクト チームが使うクローラーです。
これまでは、そうした用途のクローラーも Googlebot の役割だったのですが GoogleOther として分離しました。
特殊なケース用のクローラー
「特殊なケース用のクローラー」は、サイトが合意した場合にのみクロールする特定のサービス向けのクローラーです。
たとえば、広告品質をチェックする AdsBot (モバイルウェブ用の AdsBot-Google-Mobile と PC ウェブ用の AdsBot-Google) や、関連性が高い AdSense 広告を配信するためにページのコンテンツを分析する Mediapartners-Google などです。
特殊なケース用のクローラーは、robots.txt に従わないという特色もあります。
ユーザー トリガー フェッチャー
「ユーザー トリガー フェッチャー」は、ユーザーのアクションをきっかけとしてクロールを実行するクローラーです。
たとえば、Search Console でサイトの所有者確認を実行する Google Site Verifier が該当します。
このタイプのクローラーも robots.txt を無視します。
各 3 タイプに含まれる全種類のクローラーとそれぞれの役割およびユーザーエージェント文字列については、技術ドキュメントを参照してください。
日本語ページも更新されています。
各タイプのクローラーの確認方法
各タイプのクローラーは、ユーザーエージェントはもちろんのこと、使用する IP アドレスのレンジも異なります。
どのタイプのクローラーなのかを識別するための方法も技術ドキュメントに追加されました。
実際の IP アドレスも提供されています(JSON ファイルで提供)。
クローラーの確認が必要なシステムを組んでいる人はドキュメントを確認しておいてください。
クローラーの詳細を意識する必要があるサイトはそう多くはないと思います。
それでも必要とするサイトが一定数あることも確かです。
該当するサイトの管理者は再構成されたドキュメントを一読しましょう。