重複コンテンツ対策にはrel=canonicalを推奨、noindexタグではシグナルがすべて失われる

[レベル: 中級]

重複コンテンツの解消には、noindex タグや robots.txt ではなく、rel=”canonical” の使用が推奨されます。
noindex/robots.txt では、重複したページのシグナルがすべて失われてしまうのに対して、rel=”canonical では統合されるからです。

noindex ページのシグナルはすべて失われる

英語版のオフィスアワーで次の質問が出ました。

重複コンテンツや低品質ページがインデックスされないようにするために、クロール可能なページの 15% に noindex と nofollow タグを設定しています。

サイト全体の品質にこの施策は影響しますか？それともサイトの品質を評価するときに、インデックスしているページだけを Google は考慮しますか？

Google の John Mueller（ジョン・ミューラー）氏は、このように説明しました。

そのとおりで、サイトの品質を理解するという点ではインデックスしているページだけを私たちは見る。

ただ、少し立ち戻って伝えておきたいことがある。

重複コンテンツ対策に noindex タグを使っていると言ったけれど、一般的には、重複コンテンツに対しては noindex よりも rel=”canonical” を使うことを私は勧める。

noindex というのは、「このページは何もインデックスしてはいけない」と私たちに指示することになる。
rel=”canonical” は、「このページは実際は、別のこちらのページと同じだ」と私たちに指示することになる。

両方のページのすべてのシグナルを集めて1つに統合できるから、rel=”canonical” は私たちの助けになる。

一方で、単に noindex にしたり、robots.txt でブロックしたりすると、そのページに関連付いているシグナルは基本的にはすべて失われる。なくなってしまうんだ。

たとえば誰かがページにリンクしてあなたがそのページに noindex を設定していたとすると、どこにもリンクしていないことになる。

対して、rel=”canonical” を設定していれば、そのリンクは正規化しているページに向いていることがわかり、rel=”canonical” に従ってあなたがインデックスしてほしいページへたどっていく。そして、そのページをインデックスに使う。

重複・低品質の対策には noindex よりも canonical を

noindex を設定したページは最終的にはインデックスから削除されたのと同じ状態になります。
つまり、まったくないものとして扱われます。

ページ A とページ B が重複コンテンツで、ページB を noindex にしていたとします。
ページ A とページ B にリンクが1本張られていたとしたら、ページ Bへのリンクはなかったことになります。
ページ B はインデックスから外されるからです。

一方で、rel=”canonical” を設定したページが持つ評価は rel=”canonical” で指定されたページに統合されます。

ページ B の rel=”canonical” がページ A に向けられていたとすると、ページ B に張られていたリンクもページ A の評価に含まれます。
つまり、2本のリンク評価がページ A には与えられます（実際には、そのほかの要因も考慮されるでしょうが、わかりやすいようにシンプルにしています）。

そのページの評価は完全に無視できると確信できるなら、重複コンテンツや低品質コンテンツの対策に noindex を使っても構いません。
ですが、多少なりとも評価を引き継がせたいと望むのであれば、rel=”canonical” が推奨されます。