クロスドメイン(ドメイン間)の重複コンテンツ発生をGoogleウェブマスターツールが通知

[レベル:中〜上級]

ドメイン名をまたがった重複コンテンツを検出しあなたのサイトのURLが重複側とみなされた場合に、Googleウェブマスターツールのメッセージセンターに通知が届くようになりました

重複コンテンツには、同じドメイン名のサイトで発生するものと別のドメイン名のサイト間で発生する、いわゆる“クロスドメイン”で発生するものがあります。

今回の通知は、クロスドメインで同じコンテンツが存在している時にあなたのサイトのコンテンツ(URL)が重複と判断されて検索結果に表示されなくなったことを伝えるものです。

どのURLを代表として選ぶかはアルゴリズムによって決められます。
Googleはこれを、“Cross-domain URL selection”(そのまま訳すと「クロスドメイン URL 選択」)と呼んでいます。

クロスドメインでの重複コンテンツ発生を防ぐために、301リダイレクトrel=”canonical”タグなどいくつかの手段が使えます。

しかしサイト管理者が重複コンテンツを防ぐ手段を適切にとっていなかったり、正しく設定されていてもGoogleが処理を誤ったりすることがあります。

もしオリジナルなのに重複とみなされて検索結果から除外されてしまったら、これまでは重複コンテンツ扱いされたことすら明確に分かりませんでした。
でも新しいメッセージ通知により重複コンテンツ扱いされたことが分かるようになったということになります。

何を理由にして重複側だと判断されたのか、オリジナルと判断されたのはどのドメインのURLなのかなどどんなメッセージが届くのかは不明です。

“Cross-domain URL selection”が起こりがちな原因としてGoogleは以下を挙げています。

  • 同じ言語で同じコンテンツを複数のドメイン名のサイトで公開 — たとえばドイツ語での同一コンテンツを www.example.de とwww.example.at と www.example.ch で公開している場合。
  • 不適切な正規化 — CMSやプラグインの誤設定でクロスドメインでの予期せぬ重複コンテンツが発生することがある。
  • 誤ったサーバー構成 — 別のドメインのURLを返してしまったり、互いに関係のない2つのサーバーが同一のソフト404を返したりすることがある。
  • 悪意のあるハッキング — 301リダイレクトを仕込まれたり、rel=”canonical”タグを埋めこまれたりする攻撃を受けた場合。
  • 不正なコピー — 無許可でのコンテンツまるパクリ。

サイト内の重複コンテンツ以上に、ドメイン間での重複コンテンツは発見が難しい時があるし対処が困難な時も多くあります。
自分のミスならまだしも、スクレイピングされたのにオリジナルの自分がコピー扱いされるのはたまったのもではありません。

Googleはクロスドメインでの重複コンテンツを通常は上手に処理できていると言っていますが、そうとは思えません。
“Cross-domain URL selection”通知が詳しい状況を提供してくれることを期待しています。

なお“Cross-domain URL selection”のヘルプは、この記事を書いている時点ではまだ日本語化されていません。
重要なドキュメントなので英語が苦手な人は日本語化されているか時折チェックしておくといいでしょう。

P.S.
“Cross-domain URL selection”の通知を受け取った人がいたら見せてください。