index.htmlの正規化はGoogle SEOで必要か?

[レベル: 中級]

現在の Google 検索においては index.html ありなしを明示的に正規化しなくても Google がほとんどの場合は自動的に正規化してくれます。

index.html は必要なしと Google は判断する

次の 2 つの URL でアクセスできたとします。

  • https://example.com/
  • https://example.com/index.html

一般的なサイトでは、index.html があってもなくても同じページを表示します。
重複コンテンツを避けるために、多くのサイトではindex.html ありなしを正規化しています。

John Mueller(ジョン・ミューラー)氏によればindex.html が付いた URL を Google が発見したときは index.html を取り除き “/“(スラッシュ)で終わる URL として自動的に処理するとのことです。

この処理はインデックス処理の早い段階で行われます。
index.html ありなしを正規化するために利用される次のようなシグナルが処理されるよりも前の段階です。

  • rel="canonical"
  • サイトマップ
  • リダイレクト

したがって、サイト側からのこうした正規化のシグナルがなくても、Google は index.html なしに自動で正規化してくれるのだそうです。

そうは言っても、リダイレクトや rel="canonical" による正規化を設定しておくことはもちろん悪いことではありません。
同じ URL であることを Google に明確に伝えられます。
ですが、index.html ありなしによる重複コンテンツには昔ほど敏感にならなくても大丈夫です。

パラメータも削除して正規化する場合も

ミューラー氏のコメントは、次の質問に対する回答の追加説明でした。

パラメータの “?“(クエスチョンマーク)だけがある URL は、ない URL とは異なる URL として扱われるか?

  • https://example.com/
  • https://example.com/?
  • 質問者のサイトでは、パラメータ付きの URL をリダイレクトした際に、システムの都合上? だけが残ったままになってしまうのだそうです。
    検索に対する悪影響があるのではと心配しました。

    ? だけがある URL とない URL を同一 URL として Google がみなすかどうかはミューラー氏は正直わからないそうです。

    そうは言いつつも、index.html の場合と同じように、パラメータを削除した URL に自動的に正規化する場合もあるとのことです。

    パラメータを削除してもページのコンテンツに変化がない URL はきっと自動で正規化してくれるはずです。
    たとえば、アクセス解析用のトラッキングパラメータが付いた URL が該当しますね。

    https://example.com/?utm_source=newsletter&utm_medium=email&utm_campaign=christmas-sale

    一方で、パラメータによってコンテンツが変化する URL は多くの場合自動では正規化しません。
    たとえば、ページネーションをパラメータで構成するサイトは珍しくありません。

    https://example.com/article?page=2

    こうした URL のパラメータを取り除いてしまうのは、内容が異なるページを同一扱いすることになり不適切です。
    自動では正規化しません。
    📝すずき補足: パラメータでコンテンツが実際には変化していたとしても、類似していると Google が勝手に正規化することもある


    まとめ

    この記事で伝えたかったことのまとめです。

    • index.html ありなしは、正規化を明示的に設定しなくても今は Google が自動的に処理してくれる
    • とはいえ、Google に明確なシグナルを遅れるので正規化設定しておくのは悪いことではない
    • 一部のパラメータ付き URL も正規化設定なしでも Google が自動処理してくれる