rel=”canonical”タグの誤用でインデックスから消滅

rel=”canonical”タグ(属性)は、URLを正規化するためのタグで2年前に導入されました。

Googleは現在、ドメイン間のrel=”canonical”もサポートしています。

rel=”canonical”は、使い道を知っておくとさまざまな場面で利用できるとても便利な仕組みです。

ところが、動きを十分に理解しないまま不用意に使うと予期しないトラブルを発生させる原因にもなってしまいます。

米国版のGoogle Webmaster Central公式ヘルプフォーラムでは、rel=”canonical”の誤用でリダイレクトエラーが起こった事例がスレッドに挙がっています。

質問を投稿したサイト管理者は、間違って次のようにrel=”canonical”を使っていました。

  • http://www.max.grenkowitz.net/?topic=10 (wwwあり)のページには rel=”canonical”タグで http://max.grenkowitz.net/?topic=10 (wwwなし)を指定
  • 一方で http://max.grenkowitz.net/?topic=10 (wwwなし)をサーバー側で http://www.max.grenkowitz.net/?topic=10 (wwwあり)にリダイレクト

何が悪いか分かりますか?

rel=”canonical”ではwwwなしに正規化し、リダイレクトではwwwありに正規化しています。
「wwwなし ⇒ wwwあり ⇒ wwwなし ⇒ wwwあり…」と、くるくる回ってしまってますね。
指摘したJohn Mueller(ジョン・ミューラー)氏は、“Cyclic redirect”、循環リダイレクトなんて言ってます。

Googleにとってはどちらが優先すべきURLなのか理解できず混乱してしまいますね。

Googleはrel=”canonical”タグでの指定を絶対に採用するわけではなく「ヒント」として使うと説明しているのですが、かなり強い指示として実際には用いているようです。

僕が何度か目にしたrel=”canonical”タグのトラブルは、サイト内のすべてのページで、rel=”canonical”タグでトップページを指定してしまい、トップページ以外がインデックスから消えるケースです。

どのページもトップページに正規化されてしまった結果ですね。

rel=”canonical”は、ページのコンテンツが同一またはほとんど同じ場合に適用されるとGoogleは言っています。

でも違うことがあるのです。
サイト内のどのページもトップページと同じなんて通常はありえませんよね。
事実、rel=”canonical”の誤用でトップページ以外が消えたサイトは個別のコンテンツを持つ、ごく普通のサイトでした。
にもかかわらず、rel=”canonical”の記述に従って個別ページがトップページに正規化されてしまったのです。

僕の知る限りでは、Googleはrel=”canonical”タグを上手に処理してくれています。

僕は、アクセス解析のために、RSSやTwitter、メルマガで記事更新を通知するときにはそれぞれに対応したGoogle Analyticsのトラッキングパラメータを付けています。
素のURLと合わせて少なくとも4種類のURLが1つのURLにできあがります。
それぞれがGoogleにインデックスされる可能性があります(メルマガでの記載であっても)。

ですが、重複URLとしてGoogleにインデックスされることはありません。
短時間でパラメータ付きがインデックスされることはあっても、すぐに解消されます。

301リダイレクトやrobots.txtなどが使えない環境で重複コンテンツを防ぎ正規化を実行するには、rel=”canonical”タグが最適の解決方法です。
しかし使い方を一歩間違うと予想もしないトラブルを引き起こしてしまうこともあります。
注意して使いましょう。

rel=”canonical”タグ関連の過去記事はこちらどうぞ。