重複コンテンツはペナルティにはならない

双子のサルこれまでに複製コンテンツ問題について、何度か取り上げています。

これらの記事は、異なるサイト間での同一コンテンツの問題（盗用含む）についてでした。

今日は、同一サイト内に登場する同じコンテンツ（ここでは重複コンテンツと呼びます）について、書きます。

重複コンテンツ（Duplicate Content）とは、URLが違うにもかかわらず内容がまったく同じページを指します。

Googleは、重複コンテンツを発見した場合、通常１つを残して他のページ（URL）を検索結果から非表示にします。

しかし、これはペナルティではありません。

多くのウェブマスターが、重複コンテンツは検索エンジンからペナルティを受けると誤解しています。

Googleは何度も公式に説明しているし、ウェブマスター向けヘルプセンターにも記載されています。

サイトに重複するコンテンツが存在しても、偽装や検索エンジンの結果を操作する意図がうかがえない限り、そのサイトに対する処置の根拠とはなりません。

それでも、重複コンテンツとペナルティの関連についての問い合わせが後を絶たないため、Goolgeは再度、公式ブログで解説しました。

Demystifying the “duplicate content penalty”

知っているウェブマスターにとっては、目新しい情報ではないので、今さら何の価値もないとWebmasterWolrdでの反応も冷ややかです。

The above discussion links to an article in the Webmaster Help Center that is also worth noting here…

重複コンテンツが引き起こす問題と対処策は、Googleのウェブマスター向けヘルプセンターと、SEMリサーチの渡辺隆広氏が過去に数回、詳しく解説しています。

重複コンテンツに対して理解が十分でないと思うなら、必ず読んでください。

検索結果を操作したり、ユーザーをだまそうという悪意のある複製でない限りは、ペナルティを受ける可能性はきわめて低いと言えます。

今回のGoogleの投稿は繰り返しの説明ですが、複製コンテンツを処理する技術的なプロセスには、興味深いところがあったので訳します（これも過去に説明済み）。

When we detect duplicate content, such as through variations caused by URL parameters, we group the duplicate URLs into one cluster.

We select what we think is the “best” URL to represent the cluster in search results.

We then consolidate properties of the URLs in the cluster, such as link popularity, to the representative URL.

URLのパラメータが原因で引き起こされるバリエーションのような重複コンテンツを検出すると、ひとつのまとまりにグループ化する。
まとまりの代表として検索結果に表示するのに「最適」だと考えるURLを選択する。
そして、まとまりのURL群が持つリンクポピュラリティ（被リンクの数）のような資産を、代表のURLに統合する。

ステップ2で、Googleが最適とみなすURLとサイト管理者が最適とみなすURLが異なるときは、Sitemapに検索結果に表示してほしい方のURLを含めるといいそうです。

また、ステップ3で複製コンテンツをすべて検出できないときは、資産をひとつの代表URLにまとめることができません。
結果として、資産が分散してしまいコンテンツがランキングに与える力が弱まります。

記事の中で、Googleは複製コンテンツを上手に処理できていると自己評価しています。
実際そうなのかもしれませんが、完璧ではないとWebmasterWorldのメンバーの何人かはコメントを残していました。

とは言え、もしあなたが重複コンテンツにより何か問題を抱えているようなら、上で参照したページを頼りに対策を講じてください。

【追記】
偶然にも『SEO初心者のEvoブログ』さんと同じタイミングで同じテーマの記事をアップしています。
こちらも参考になります。
Googleのコピーサイトへの対処法と公開日時に対する評価