Google検索エンジニアが重複処理を語る——正規化とクラスタリングは違う、正規化には40個のシグナルを使う

[レベル: 上級]

Search Off the Record ポッドキャストのエピソード 87 では、Google 検索のソフトウェアエンジニアで Dups チームに所属している Allan Scott(アラン・スコット)氏がゲスト出演しました。
スコット氏は、重複関連の仕組みの開発を専門にしています(Dups は Duplicate の略で重複のこと)。

検索リレーションズチームの Martin Splitt(マーティン・スプリット)氏と John Mueller(ジョン・ミューラー)氏がホストしたこのポッドキャストで、スコット氏は、正規化やクラスタリング、ローカライズなどのトピックを掘り下げました。

正規化とクラスタリング

クラスタリングと正規化の微妙な違いについてスコット氏はまず説明します。

  • Clustering(クラスタリング): 類似したコンテンツを持つURLをクラスタにグループ化し、重複ページとして対処する
  • Canonicalization(正規化): 検索結果に表示する、クラスタ内で最も代表的なURLを選択する

次のようなシグナルがこれらのプロセスに影響を与えます。

  • rel="canonical"
  • 301 リダイレクト
  • HTTP と HTTPS の優先順位

こうしたシグナルは一例であり、約 40 のシグナルが正規化の選択に実際には関わっていることをスコット氏は強調します。
そして、サイト管理者は矛盾するシグナル——たとえば rel="canonical"301 リダイレクトが異なる正規 URLを示している——を避けることが重要だと述べています。

ローカライズの課題

ローカライズは、地域特有の類似したコンテンツ(例:通貨など、わずかな違いがあるドイツとスイスのページ)をグループ化する場合に、クラスタリングを複雑にします。
スコット氏は、ローカライズに対する2つのアプローチについて詳しく説明しています。

  • ボイラープレートの翻訳:リソースを節約するためにクラスタに統合される
    📝すずき補足:Boilerplate(ボイラープレート)はメニューなどサイト内で共通する部分。メニューだけを各言語に翻訳しメインコンテンツは翻訳せずに同じ言語が使われている場合は、クラスタリングされる
  • 完全な翻訳:異なるユーザーのクエリに対応するために個別に保持される

hreflang アノテーションは、検索結果でローカライズされたページを優先するのに役立ちます。
hreflang の使用と検証を改善するための継続的な取り組みについてもスコット氏は触れました。

エラーページとブラックホール

エラーページ、特にソフト 404(誤ってHTTP 200 ステータスコードを返すエラーページ)がクラスタリングされている場合、重大な問題が発生します。
これは、「ブラックホール」クラスタと呼ばれます
一時的なエラーや誤ったエラーに他の正常なページも巻き込まれ、再クロールや適切なインデックス作成が妨げられるクラスタです。

ブラックホールクラスタをスコット氏は警告し、次のような回避策を挙げました。

  • HTTP ステータスコード(例:404503)を正しく使用する
  • JavaScript でレンダリングされたページでも、明確なエラーメッセージを提供する
  • ユニークで正確なコンテンツを確保することにより、不適切なクラスタリングを回避する

実践的な推奨事項

スコット氏は最後に、次のようなことにサイト管理者は注意するように推奨しました。

  • 正規化シグナルが一貫しており、目的の URL を指していることを確認する
  • ローカライズに hreflang アノテーションを正確に使用する
  • クラスタリングの問題を回避するために、適切な HTTP ステータスコードを提供する
  • エラーを防ぐために、rel="canonical" の実装を定期的に監査する

クロール、インデックス関連のトピックは、特に大規模サイトの管理者にとって興味深いのではないでしょうか。

この記事は要約なので、あなたにとって興味があるパートを省いているかもしれません。
YouTube 動画だと自動翻訳を利用できます。

文字起こししたトランスクリプトもあるので、生成 AI に翻訳させてもいいでしょう。