検索の仕組みを解説するサイトをGoogleが開設、実際のスパムサイトや検索品質評価ガイドラインも公開

[対象: 全員]

Googleは、検索の仕組みを解説する新しいサイトを公開しました。

HOW SEARCH WORKS

日本語バージョンも準備されています。

以下の5つのセクションから構成されています。

  1. 概要
  2. クロールとインデックス
  3. アルゴリズム
  4. スパム対策
  5. ポリシー

オリジナルの英語バージョンには、Google検索がどのように動いているかを説明するインフォグラフィックもあります。

日本語ページがあるので自分で読んでもらえばいいのですが、それぞれのセクションの簡単な内容と僕からの感想を書きます。

インフォグラフィック

検索の仕組みを解説する「HOW SEARCH WORKS」というタイトルのインフォグラフィックです。

英語ページでのみ見ることができます。

HOW SEARCH WORKS インフォグラフィック

インフォグラフィックというよりも、アニメーションと呼ぶべきかもしれません。

スクロールすると、Googleの検索がどのようにできあがっているかを説明する画像が次々と動きながら展開していきます。

派手さはありますが、個人的にはさほどインパクトを受けませんでした。

英語がわからなくてもこのインフォグラフィックが表現していることは日本語の各セクションを読めば理解できます。

概要

概要」のセクションは目次ページです。

言うことは特にありません

クロールとインデックス

クロールとインデックス」のセクションは、検索プロセスの基本となるクロールとインデックスの仕組みを説明しています。

僕のブログ読者にとっては驚くような新しい情報はないはずです。
ほとんどすべてを知っていることでしょう。

でも僕にとっては役に立つページです。
SEOを学び始めたばかりの人にクロールとインデックスの仕組みを説明するにはこのページを見てもらうか、セミナーであればスライド化して解説することができます。

アルゴリズム

「アルゴリズム」のセクションは、Google検索で利用できるサービスやアルゴリズムがどのようにして実装されていくかを説明しています。

説明自体は簡単なものですが、注目すべきは「検索品質評価ガイドライン」を一般公開していることです。

検索品質評価ガイドラインは、検索結果が適切かどうかを評価するためにGoogleが契約した社外の評価者が使用するマニュアルです。

内部文書なので僕たち外部の人間は手に入れることができないのですが、流出する事件たびたび発生しています。

最近では、去年の9月に出回っています。

ところがこの評価ガイドラインを今回Googleは公開したのです。

しかし残念なことに、“一部”だけです。

公開版のバージョンは「1.0」ですが、流出版は「3.18」です。
公開用に編集したものを別に作ったのでしょう。

最新版でもっとも価値ある情報だと個人的に感じたページとサイトのクオリティを評価するパートが削られています。

質の高いサイトを作るのに役立つ大きなヒントがたくさん詰まっているパートです(ちなみに僕が昨年実施したパンダアップデートセミナーでは受講者と動画購入者に日本語訳したものを配布しました)。

ほかにも、評価者が使う特殊なツールについて説明するパートなども省略されています。
最新の流出版が161ページあるのに対し公開版は43ページです。

公開しても差し障りない部分だけを抜き出したのでしょうね。

とはいえ、これだけでも十分に価値のある情報になります。

ただしこちらは日本語訳されておらず英語のドキュメントになります。

「英語読めねー!(汗」という人はこちらのを記事を読むといいでしょう。

最新の流出版からではありませんが、大きくは変わっていません。

なおその1の「クエリのタイプ」に関しては次の記事で解説したような内容に更新されています。

スパム対策

僕がいちばん興味を持ったのがこの「スパム対策」のセクションです。

アルゴリズムで捕獲できず、手動でインデックス削除したスパムサイトを実際に見ることができます。

キーワード スタッフィングでインデックス削除されたサイト

上は、電話番号だけを羅列しキーワードの乱用としてガイドライン違反に問われインデックスから削除されたと思われるサイトです。

このように「Pure Spam(純粋なスパム)」の実際のサイトのスクリーンショットが表示されます。

リアルタイムではないのですが、30から40分おきくらいに更新されているようです。

「これは明らかにスパムサイトだ」と見た目にすぐに認識できるものもあるし、一見すると普通のECサイトにしか見えないものもあります。

リンクをクリックしてもそのページにはアクセスできません。
しかしURLをコピーしてブラウザのアドレス欄に貼り付ければ直接訪問して探ることはできます(が、マルウェアに感染したりといった危険があるので自己責任でお願いします)。

スパム対策セクションではスパムの種類も紹介されています。

  • クローキングまたは不正なリダイレクト
  • ハッキングされたサイト
  • 隠しテキストまたはキーワードの乱用
  • パーク ドメイン
  • 純粋なスパム
  • スパム コンテンツを含むホスティング サービスと動的 DNS プロバイダ
  • 付加価値がほとんどまたはまったくない、実質のないコンテンツ
  • サイトからの不自然なリンク
  • サイトへの不自然なリンク
  • ユーザー生成スパム

ウェブマスターツールに送られてくる警告メッセージの種類について僕からの質問にGoogleのウェブスパムチームの隊長のMatt Cutts(マット・カッツ)氏は10種類ほどに分類していると説明していました。

上記の分類に相当するんじゃないかと推測します。

スパムの種類別の手動対応の数や送信した通知の数、ウェブマスターから送られてきた再審査リクエストの数の月ごとの推移を表すグラフも公開しています。

さらに下に引用するように、SEO関係者が敏感に反応するであろう情報が盛りだくさんです。

2006 年 4 月
手動によるスパム対策を実施するチームを東京(日本)に展開しました。

2007 年 10 月 – レガシー
2007 年秋に、ウェブスパム違反の種類に応じてより構造的にデータを保持するように、分類体系を変更しました(このため、上のグラフを作成することができました)。新しい体系に適切に分類できなかったものは「レガシー」カテゴリに分類されています。この当時から、実質のないアフィリエイトやクローキングのような種類のスパムへの対策を行っていましたが、スパムの種類別の分類は、以前のデータにはまだ利用できていません。

これまでに再審査リクエストをお送り頂いたサイトを見てみると、実際に手動によるスパム対策の影響を受けていたサイトはそれほど多くはありませんでした。多くの場合は、単にオンライン トラフィックの自然な増減やアルゴリズムの変更によるものであったり、サイトやサーバー側の技術的な問題で Google がサイトのコンテンツにアクセスできなかったことが原因だったりします。

スパム対策セクションは何度も読み返したいですね。

ポリシー

ポリシー」のセクションではGoogleの検索に対する考え方を知ることができます。

  • 情報へのアクセスを最優先
  • 手動による対策よりもアルゴリズムを優先する
  • 例外リスト
  • スパムおよび不正なソフトウェア対策
  • ウェブマスターに対する情報開示
  • ID の窃盗防止
  • 法的な理由による削除
  • 児童ポルノ対策
  • 刺激の強いコンテンツ
  • セーフサーチ

Googleが認める正しいSEOを行なっていくうえではGoogleの考え方をしっかり理解することも重要です。

まだの人は今すぐ読もう!

初級者であれ上級者であれ、SEOに少しでも関わっている人は必ずすべてに目を通して置かなければならないサイトです。
SEOに関わっているというよりもサイト運営に関わっている人といったほうが適切ですかね。

英語ページと日本語ページの両方を僕は読みました。
きちんと丁寧に日本語訳されているので日本語ページを読むだけで大丈夫です。
ビデオには(人間の手が入った)日本語字幕も付いています。

たくさんあるように見えるかもしれませんが、20〜30分もあれば楽に読み終わるでしょう。
今日中に必ず読んでおくことを強く推奨します。