[対象: 初〜中級]
robots.txtの動きと注意点についてGoogleのJohn Mueller(ジョン・ミューラー)氏が英語版のウェブマスター向けヘルプフォーラムでコメントしています。
ぜひ知っておきたい情報なので共有します。
もともとの投稿は次のような質問でした。
とても多くのURLをrobots.txtでブロックしていた。
ある時点でrobots.txtのブロックを解除した。
ところがブロックされたURLの数が依然として増え続けている。
何が原因なのか?
ミューラー氏の回答とそれに付随するrobots.txtに関する注意点は次のとおりです。
知っておきたいrobots.txtの動きと使い方
- ブロックされたURLのウェブマスターツールでのカウントが実際の状況を反映するまでには時間がかかることがある。
- インデックスステータスがレポートする数はその時点での累積である。
※鈴木補足: その日に新たに発見した数ではない - パラメータでのブロックは、実質的に内容が同じかもしれないのに非常に多くの拒否URLを結果的に作り出すことがある(robots.txtでブロックしていると、通常は中身をクロールできないのでリダイレクトやrel=”canonical”を認識できないし、重複コンテンツの判断もできない)。
- クロールされると問題になるURLだけをブロックすることを推奨する(たとえばGooglebotが、サーバーに高い負荷をかけたり不必要な帯域を消費する場合)。または中身をインデックスされると困る場合にそのURLをブロックする。
- robots.txtでクロールを拒否してもインデックスされないことには必ずしもならない。しかし、内容とそのURLを関連付けることできない。
※鈴木補足: 検索結果にURLだけを出すことがあるが内容を読んではいない - インデックスされたURLの数を知りたいときはサイトマップのレポートを見るといい。「site:」検索は数を知るのに適切な方法ではない。
- サイトマップを論理的な構造で分けておくとサイトのどの部分がインデックスされているか把握しやすくなる。
SEOを施策していくなかではrobots.txtを利用する場面が必ず出てきます。
この記事で紹介したGoogleのミューラー氏による情報の多くは僕のブログで過去に取り上げたものです。
でもバラバラに出てきていたのでこうやってまとめて復習するのも良いことですね。