Googleの新インデックスシステム、Caffeineが本番展開

Googleのインデックスの新しいインフラストラクチャ、通称Caffeine（カフェイン)がついに全面可動を開始しました。

カフェインの開発のアナウンスがあったのが昨年の8月、テスト的に1台のデータセンターで導入されたのが昨年の11月でした。

本格導入は米国でのホリデーシーズン終了後と言われていたものの、ホリデーシーズンをとうに過ぎても全面展開の発表がない状態が続いていました。

いよいよということになります。

今シアトルで参加しているSMX AdvancedでMatt Cutts氏が登場するセッションもカフェイン始動のアナウンスから話が始まりました。

カフェインはインデックスシステムの刷新です。

いちばんの特徴はインデックスの新しさと量にあります。

従来はインデックスをいくつかの層に分けて管理し、更新間隔が速い層もあれば遅い層もありまちまちでした。
メインの層は2週間に1回更新し、更新するためにはウェブ全体を分析しなおす必要があったためページの発見と検索結果への反映に大きな時間差が発生していました。

ウェブページのクローリング、コンテンツの抽出、アンカーテキストや外部リンクのような関連データの抽出、ページのトピックの判断など、こういった一連の処理を通しで実行していたのが従来の方式です。

しかしカフェインでは、インデックスを小さく分割して全体として絶え間なくインデックスを更新しています。

新しいページを発見すると直接インデックスに取り込みます。
ほぼ瞬時と言ってもいいくらいの時間です。

これまでと比べてインデックスが格段に最新の状態になります。
インデックスのスピードは以前と比べて50%早くなりました。

インデックスの処理の力も向上し、数十万のページを毎秒ごとに同時に処理できるそうです。1秒ごとに3マイル（4.6km）の高さに紙が積み上がるのと同じです。

1つのデータベースに1憶GBのデータを格納し、数十万GBのデータを1日に追加できます。
最大容量のiPodだと625,000台分に相当するです。
※↑、ピンとくるようなこないような例えですね。（笑）

カフェインは単にスピードを早くしたということだけではなく、将来を見据えて作り上げられました。

ウェブページや画像、ビデオなどのドキュメントを格納する際はさまざまな情報と関連付けています。
ウェブページでいえば、外部リンクやそのリンクのアンカーテキストです。
新しいタイプのカフェインでは、新しいタイプのドキュメントが登場してもコードを書き換えることなく柔軟に対応できるようです。

SMX AdvancedでMatt Cutts（マット・カッツ）氏はカフェインについて次のような情報も提供してくれました。

新しいタイプのデータへの対応として、たとえばこれまではウェブページは1つの国だけしか対象にできませんでしたが、カフェインでは複数国を対象にすることができるかもしれないそうです。

HTML5の対応にも努力しており、正確に読み取れるように開発を進めています。
ただしHTML5だからといってそれが有利に働くことはありません。

またJavascript内のリンクの発見やJavascriptの実行の能力が向上し、スパムの検出にも利用しています。

カフェインは先日実行されたメーデーアップデートとは異なり、（ランキング）アルゴリズムの更新ではありません。

クローリング・インデックシングシステムの刷新です。

しかし、インデックスのスピードがアップし、量が増え、新しいタイプのドキュメントにもすぐに対応できる、という点から考慮すると間接的にランキングに影響を及ぼすことも考えられます。

とは言っても、今すぐ何かアクションを起こせということではありませんし、何もすることはありませんし、何かしたくてもやれることはなさそうです。

したがってはっきり言ってしまえば、カフェインの本導入のニュースを知らなくても悪い影響が出るわけではないし、知っていたからと言ってアドバンテージが得られるわけではありません。

でもSEOに携わるウェブマスターなら知っておいてほしいGoogleの動きです。