[対象: 全員]
僕のブログ読者ならきっとほぼ全員がサイトマップを検索エンジンに送信しているでしょう。
ここでいうサイトマップとはユーザーのために設置するサイト内のコンテンツを案内するウェブページのサイトマップではなく、検索エンジンにURL情報を伝えるためのサイトマップです。
あなたは何のためにサイトマップを送信していますか?
不適切なURLをサイトマップに登録してはいませんか?
この記事では、何気なく利用しているサイトマップのメリットと注意点について学んでみます。
以下がこれから説明するコンテンツです。
- サイトマップ送信のメリット
- インデックスの手助け
- コンテンツ更新の通知
- 正規化のヒント
- インデックス数の把握
- アノテーションの記述
- サイトマップの注意点
- 検索結果に出さないURLを含めない
- リダイレクト元のURLを含めない
- 存在しないURLを含めない
- 登録URL数に上限あり
順に見ていきましょう。
サイトマップ送信のメリット
インデックスの手助け
サイトマップの最大の目的はURLのインデックス促進です。
と言いたいところですが、僕は必ずしもそう思いません。
サイトマップに頼らなければインデックスされないようなページが多いサイトはサイト内のリンク構成がお粗末だと考えられます。
サイトマップに頼らずともクロールされるように内部リンクを構成することのほうが大切です。
トップページに新規に公開したページへのURLを掲載してもインデックスされづらいとしたらクロール頻度が低すぎるとかインデックスに値しないンテンツだったとか早急に解決すべき何かしらの問題を抱えていることもありそうです。
インデックスにサイトマップが大きく貢献するとしたらたくさんのコンテンツが毎日絶えず追加される大規模サイトですかね。
それでもサイトマップなしでインデックスされるサイト作りが大切に思えます。
もっとも画像サイトマップと動画サイトマップの送信にはウェブページのサイトマップとは別の価値があります。
画像はウェブページに比べてクロール頻度やインデックス更新が遅めなのでサイトマップでインデックスを手助けできます。
また動画サイトマップは、中に書かれている情報を参照してリッチスニペットをGoogleが生成します。
絶対に出るということではありませんがあなたから情報を提供することには意味があります。
コンテンツ更新の通知
既存のページのコンテンツを更新したことを通知するのにもサイトマップは役立ちます。
<lastmod>
に、更新した日時を指定すると検索エンジンは最新の日付が付いたURLを優先してクロールします。
気を付けてほしいのはインデックスを速めるために不正確な日付を書いたり更新していないのに値を変えたりすることです。
Googleに何かの罰を受けるということではありませんが、乱用すると好ましくないことが起きるかもしれません。
正規化のヒント
重複コンテンツを発見した場合、優先URLを決めるのにサイトマップをヒントにすることがあります。
つまりサイトマップに書かれているURLを代表のURLにするかもしれません。
ただし1つのヒントとしてです。
正規化をサイトマップに依存してはいけません。
301リダイレクトやrel=”canonical”を正規化には用います(rel=”canonical”もヒントですがサイトマップよりははるかに強い)。
サイトマップには重複コンテンツになるようなURLを含めないようにしてください。
自ら重複コンテンツ問題を促進するような真似は避けましょう。
自動でサイトマップを生成するツールを自作しているときは特に気を付けてください。
インデックス数の把握
Googleウェブマスターツールのサイトマップレポートでは登録されたURLのインデックス数を確認できます。
インデックス数を調べるために「site:」コマンドが使えますが、返される数字は非常に当てになりません。
.comと.co.jpで数字が異なっていたり、example.comのインデックス数よりもexample.com/abc/のインデックス数が多かったりするというような理解し難い結果を返すことがあります。
これに対してウェブマスターツールでのインデックス数はほぼ正確な数字を示します。
ただしサイトマップで送信したURLのうちでインデックスされているURLの数になります。
しかし「site:」コマンドと違ってどのURLがインデックスされているかを知ることができません。
解決策としては、サイトマップを細かく分ける方法があります。
1つのサイトマップにすべてのURLを記述せずにディレクトリ単位などで分割すれば、自分で設定した範囲でのインデックス状況を把握しやすくなります(全部のURLを載せたサイトマップと分割したサイトマップの両方を送信しても構いません)。
なお数ページ、十数ページのサイトでない限りは、サイトマップで送信したURLがすべてインデックスされることはまずありません(僕は見たことがない!)。
インデックスする必要がないとGoogleが判断したURLはたとえサイトマップに記述してあってもインデックスされないでしょう。
アノテーションの記述
サイトマップはインデックスしてほしいURLを記述するための仕組みですが、Googleでは“アノテーション”も併せて指定することができます。
モバイル向けサイトと他言語・他地域向けサイトで使うアノテーションの rel="alternate"
はサイトマップでも指定可能です。
詳しくはこちらを参照してください。
- Building Smartphone-Optimized Websites – Webmasters — Google Developers ※“Annotation in the HTML”のセクション
- サイトマップ: rel="alternate" hreflang="x" を使用する – ウェブマスター ツール ヘルプ
次はサイトマップの注意点です。
サイトマップの注意点
検索結果に表示させないURLを含めない
robots.txtでブロックしているURLやnoindex robots meta タグを記述しているページはサイトマップに含めてはいけません。
検索結果に表示してほしいURLだけをサイトマップには書きます。
リダイレクト元のURLを含めない
リダイレクトを設定している場合、最終地点のURLを記述します。
転送が始まるURLを記述してはいけません。
301リダイレクトを早く認識させようとしてリダイレクト元のURLを載せようと目論んだとしてもそれはGoogleが推奨しない使い方です。
存在しないURLを含めない
すでに存在しないページもサイトマップに含めてはいけません。
当たり前のように思うかもしれませんが、ページの削除を速く処理させるために404のページをサイトマップに書く人がいるようです。
これもGoogleが推奨しないやり方です。
急ぎのURL削除にはURL削除ツールを使います。
登録URL数に上限あり
サイトマップに登録できるURLには上限があります。
50,000個を超えるURLを登録することはできません。
50,000個を超えるときは分割し「サイトマップ インデックスファイル」を利用します(詳しくはヘルプを参照)
サイトマップのサイズにも上限があります。
最大サイズは50MBです。
URLの数が50,000以下であってもサイズが50MBを超えるとエラーが起きます。
なおサイトマップはgzip形式で圧縮して送信することも可能です。
「インデックスを助ける」という元々の役割よりも今は別の役割による利点がサイトマップには多いように感じます。
エラーが起きてサイトマップが正しく認識されなかったのはExcelで作成したことが原因だったというビックリするような投稿が公式ヘルプフォーラムにありましたが、サイトマップは仕組みを知って正しく使うことも大切です。