グーグル、検索システムの裏側を語る

最近、Googleはウェブマスターへの情報公開を進めています。

今年の５月には、Udi Manber（ウディ・マンバー）氏が、Googleの検索品質について公式ブログで解説しました。

また、数日前にはAmit Singhal（アミット・シンガル）氏が、Googleランキングシステムの基本原則について解説しています。
※こちらは、ブログ記事として取り上げていません。SEMリサーチさんの『Google、検索ランキング決定の三原則を紹介』をご覧ください。

続けて、ランキングシステムのさらに突っ込んだ部分についての解説が投稿されました。

要点をまとめます。

過去数年に渡ってクローリングとインデックスの技術の改良に注力している。
ウェブページのコンセプトを重要視する。そのページに直接キーワードがないとしても、何について書かれたページなのかを理解しようとする。
ページ内の重要なワードと、重要でないワードを区別する。
ページ内の情報の「Freshness（新鮮さ、新しさ）」も見ている。
スペルミス（打ち間違い）した検索の補正提示機能がよく機能している。
・例：「kofee Anan（コフィー・アナン国連事務総長）」で検索すると“Did you mean（日Googleでは、「もしかして」）”として、「kofi annan」を提示。「kofee beans（コーヒー豆）」で検索すると、「coffee beans」を提示。
※ 同じ「kofee」でも、「kofi」と「coffee」で異なる修正を提示してますね。
同意語の認識にも力を入れている。
検索キーワードに現れない、検索者の意図を理解するシステムを開発している。
検索者のいる場所によって検索結果を変化させる、Localization（ローカリゼーション）を採用している。
・例：同じ「bank」を検索しても、Google US、Google UK、Google日本では結果が異なる。
ユーザーの検索履歴によって結果を最適化する、Personalization（パーソナリゼーション）も採用している。
一般のウェブページだけではなく、画像や動画、ニュース記事なども検索結果に一緒に表示するUniversal Search（ユニバーサルサーチ）を取り入れている。
Cross Language Information Retrieval (CLIR）という、検索者の使用言語ではない言語のウェブページを翻訳する機能の導入を始めた。
・例：下のキャプチャ

前回のランキングシステムについての投稿は、Googleの理念を述べたもので抽象的な内容でしたが、今回はより具体的な仕組みについて語られていますね。