ウェブクローラーとは？ Googlebotにコンテンツをクロールさせる方法

[レベル: 中級]

Search Off the Record ポッドキャストのエピソード 70 では Google の Gary Illyes（ゲイリー・イリース）氏と Lizzi Saasman（リジー・サスマン）氏、そして SEO の専門家でウェブ開発者でもある Dave Smart（デイブ・スマート）氏がウェブクロールの仕組みと Googlebot の動作について解説しました。

この記事で主要点を紹介します。

ウェブクローラー：検索エンジンだけのものではない

ポッドキャストは、クローラーがウェブサイトから情報やリソースを取得し、インデックス化やランキング付けを行うソフトウェアであるという説明から始まります。

クローラーはインデックス化とランク付けのために、検索エンジンによって使われるソフトウェアプログラムです。
ウェブクローラーは検索エンジンだけでなく、様々なツールやアプリケーションにも利用されています。

Googlebot の仕組み

Googlebot は、具体的な構成要素として主に Fetcher（フェッチャー）と Controller（コントローラー）、Scheduler（スケジューラー）という3つの要素から構成されています。

フェッチャー：インターネットからコンテンツを取得する役割を担う
コントローラー：様々なソースから発見されたリンクを統合してフェッチャーに送る
スケジューラー：主に検索を担当する Google 内のさまざまなチームからの需要に応じて、いつ、何を取得するかを決定する

クロール対象の決定

何を取得し、どの URL をクロールするかの判断は、たとえば次のような要素に基づきます。

コンテンツの重要性
過去にクロールされたことがあるかどうか
高品質かスパムか

クロールとインデックスは動的なプロセスであり、検索エンジンはシグナルと品質評価に基づいて、何をクロールし、インデックス化するかを常に再評価しています。

クロールバジェット：リソースと考慮事項

次に、ウェブサイトをクロールするために利用できる有限のリソースについて「Crawl Badget（クロールバジェット）」という用語が使われています。
Google 社内ではこの用語を使用しませんが、特定のサイトからクロールできる量には制限がある、ということを示すための方法として解釈します。

クロールバジェットの制限値は、次のような要素に影響されます。

検索結果におけるサイトの重要性
コンテンツの質
外部からのリンク数

新しいウェブサイトの発見方法

新しいウェブサイトがどのように発見され最初にクロールされるのかに関しては、内部リンクと外部リンクが重要な役割を果たします。
権威あるサイトからの自然なリンクは、検索エンジンにとってコンテンツの重要性と関連性を示すシグナルになります。
また、トップページなどの重要なページからの内部リンクも、Googlebot に新しいコンテンツの重要性を伝える手段として大いに役立ちます。

その他：ページネーション、Indexing API、コンテンツ品質の重要性

さらに、ページネーション、Indexing API、コンテンツの品質を向上させることがクロール率にプラスの影響を与える方法についてもポッドキャストでは触れています。

ページネーションは複雑なトピックとなる可能性があり、ページ分割されたページをクロール及びインデックス化するかどうかは、コンテンツの有用性と品質、コンテンツにアクセスするための代替パスの有無、そしてウェブサイトの具体的な目標などの要因によって判断されます。

Indexing API はURLを素早くインデックスに入れることができますが、求人情報やライブストリーミングイベントなど、特定のユースケースを目的としています。
一般的な用途には向いておらず、スパム行為や質の低いコンテンツに使用してはいけません。

コンテンツの質を向上させると、クロールとインデックス化が増加する可能性がありますが、検索エンジンがその改善を認識し、それに応じてクロール頻度を調整するのには時間がかかることもあります。
検索から URL をブロックすることは、品質が十分に改善され、クロールとインデクシングの増加につながるかどうかを判断するための試験になり得ます。

以上です。

検索エンジンのクローラーの仕組みを理解することは、自らのウェブサイトをより検索結果に表示されやすくするための重要な一歩です。
クロールやインデックスのプロセスを把握することで、より効果的なウェブサイトの構築と運用が可能になります。