Googleのクロール頻度に影響する3つの要因

301リダイレクトによってPageRankが失われるという今週エントリした記事は、GoogleのMatt Cutts(マット・カッツ)氏がEric Enge(エリック・エンゲ)氏に受けたインタビューでの発言が情報元でした。

今日はこのインタービューの中から、Googleのクローリングに影響を与える3つの要因について紹介します。

PageRank

Googleがクロールするページ数はPageRankにだいたい比例する。
ホームページにたくさんリンクが集まっていれば確実にクロールされるし、そのホームページから内部リンクが張られているページはPageRankを受け取ることになり同じようにクロールされやすくなる
しかしリンクの階層が深くなればなるほどPageRankは減っていく。
したがってPageRankの高いページはクロール頻度が高くなるし、PageRankの低いページは高いページほど頻繁にクロールされなくなる。

PageRankが高いページのほうが訪問頻度が高くなるわけですね(ただしツールバーで見えるPageRankでの判断は必ずしも信頼できないので注意が必要)。
通常はトップページにいちばん多くのリンクが集まっているはずですから、重要なページ(≒CVRやROIの高いページ)はトップからリンクした方がいいでしょう。

また、Matt Cutts氏は「言われているような“インデックスの上限値”みたいなものは本当には存在しない」と最初に断っています。
Googleが1つのドメインでインデックスできるURLには上限があるとする分析があるのですが、システムとして上限値を設けているわけではないことではないということです。

共有サーバー

サーバーの読み込み能力についても考慮している。同じIPアドレスの共有サーバーで運用されている状況で、限られた時間の中で限られたページしかクロールできないとしたら制限がかかることがありえる。

共有サーバーがダメと言うことではなくて、クローラのアクセスでサーバーやネットワークに負荷をかけすぎないようにするための配慮です。
クローラのアクセスによって人間のユーザーのアクセスが妨げられるのは好ましいことではありません。
とはいえ「安かろう悪かろう」のレンタルサーバーではクローリングのチャンスが少なくなってインデックスされづらくなるかもしれないのでケチらないようにしましょう。

重複コンテンツ

重複コンテンツもクローリングに関わってくる。
たとえば3つのページをクロールして2つのページがもう1つのページと同じだったとしたら、そのうち2ページは複製とみなして除外して1ページだけを保存する。
良いコンテンツではないと判断してそのサイトへの訪問を少なくするかもしれない。

検索エンジンはURLが違うけれど同じコンテンツのページは複製物として、代表だけを残してそれ以外はドロップするあるいは補足結果に入れることがあります。
見た目が違うけれど中身が同じものを保存しておくのはリソースの無駄遣いですね。
複製コンテンツが多いと余計なクローリングとそれに伴なう処理が発生します。
Googleは「このサイトは複製コンテンツばかりだ、無駄な仕事ばかりさせやがって」として評価を下げ、結果としてクロール頻度を落とすこともありえるということです。

いくら良いコンテンツを作っても検索結果に現れなかったら、SEOにおいては存在しないも同然です。

検索結果にでるようにするためにはインデックスされなければなりません。
インデックスされるためにはクローリングされなければなりません。
検索エンジンのクローラに新しいページを発見してもらうために、また更新にしたページに訪問してもらうために上記の3つの要因を確実に理解しておきましょう。