ウェブの重複とは?――Google Webmaster Conferenceのライトニングトークより #GWCPS

[レベル: 初級]

米 Google 本社があるマウンテンビューで 11 月 4 日に開催された Webmaster Conference Mountain View では、検索チームの Google 社員によるライトニングトークが 8 セッションありました。
この記事では、そのなかから「ウェブの重複」、つまり重複コンテンツについてのセッションを共有します。

Web Duplication: ウェブの重複

Web Duplication

重複処理

  1. 同じに見える、重複したウェブページの集まりを特定する
  2. 代表となる URL を選び、ユニークなページだけをインデックスする
  3. 代表の URL にシグナルを転送する

なぜ重複処理するのか?

  • 同じページが検索結果に繰り返し出てくるのを検索ユーザーは望んでいない
  • はっきりとした差異があるコンテンツをインデックスするための余裕を確保する
  • サイトをリニューアルしたときにシグナルを保っておく
  • 別の名前(同義語?)を発見できる

重複の処理

  1. Clustering(クラスタリング)
  2. Localization(ローカリゼーション)
  3. Canonicalization (カノニカリゼーション)

1. Clustering(クラスタリング)

クラスタリングとは重複するページを統合すること。

重複のクラスタリングに利用するシグナル:

  • リダイレクト――ほぼ完璧に重複コンテンツを示すため、主としてリダレクトを Google は信頼する。こうした理由もあり、サイトの移転とリニューアルのときにはリダイレクトを利用することを推奨している。
  • コンテンツ――コンテンツのチェックサムも使う。ボイラープレート(テンプレート部分)を無視するようにしている。ソフトエラー(例: 5xx エラーやソフト 404)を認識する。そのため、HTTP ステータスコードでのエラーを取得することを Google は好む。
  • rel=”canonical”――クラスタリングには、rel="canonical" のアノテーションも利用する。rel="canonical" はより多くの確認処理を必要とする。ユーザーが間違いを犯しやすいのでしきい値を意図的に緩くしている(例: 全ページの rel="canonical" をトップページに向けてしまう)

クラスタリングにはこれら以外のシグナルも利用する。

2. Localization(ローカリゼーション)

同じ言語だが異なる国向けにコンテンツを配信しているサイト(ページ)に対する処理。
たとえば、ページは英語だが、米国向けページと英国向けページがそれぞれ存在するような場合(例: $ と £ で金額の単位だけが違う)。
コンテンツの内容が同じでも違う言語で配信している場合は重複にはならない(例: 英語と日本語の両方で同じ内容のページを公開している場合)

メインコンテンツが同じときにはページはクラスタリングされるが、これはボイラープレートだけがローカライズされているときにも当てはまる。
[※すずき補足: メインコンテンツは同じで、テンプレート部分、たとえばメニューだけが別の言語になるパターン]

IP に応じてリダイレクトする構成もクラスタリングされることが多い。
[※すずき補足: Googlebot は主に米国(マウンテンビュー)からクロールするので、米国向けページしか見られない]

ローカライズしたコンテンツには hreflang を Google は利用する。

3. Canonicalization(カノニカリゼーション)

代表にする URL の選択――正規化のこと。

重複処理するためには、代表を選ばなければならない。
代表 URL の候補は重視される基準に基づいて競い合う。
重視度は機械学習によってトレーニングされる。

正規化に際してはハイジャッキング(乗っ取り)が最大の懸念事項。
もし発見したらフォーラムで報告してほしい。

もう 1 つの懸念は、ユーザー体験に関係すること――セキュリティや meta refresh リダイレクトなど。
ウェブマスターからのシグナルが適切かどうかも気にしている――リダイレクトや rel="canonical"、サイトマップ

重複に対する Google からの提案

  • サイトリニューアルの手がかりを示すためにリダイレクトを使う
  • 適切な HTTP ステータスを送信する
  • rel="canonical" で指定するリンクを確認する
  • ローカライズ(多言語・他地域対応)には hreflang を使う
  • コンテンツ乗っ取りを発見したらフォーラムで報告する
  • セキュアなページに対してはセキュアな構成を使う
  • 正規化のための明確なシグナルを送る

以上です。

10 分程度のライトニングトークなので深く突っ込んだ内容ではなかったかもしれません。
それでも重複コンテンツの仕組みと対策の再確認に役立ったはずです。