[レベル: 初級]
リンクやサイトマップで URL を公開していなくても、Chrome でその URL に直接アクセスしたたけで Google はその URL をクロールの対象にするのでしょうか?
さまざまな経路で URL が露出する可能性あり
次のような質問が、Stack Exchange の SEO カテゴリに投稿されました。
“隠しページ”がウェブサイトにあったと仮定する。隠しているとは言え、noindex や robots.txt などで明示的に無視するようには検索エンジンのクローラには伝えていない。ただし、どこからもリンクされていないしサイトマップにも載せていない。Google アナリティクスのような解析ツールのトラッキングコードもない。
Chrome を使ってその URL に訪問するだけでクロールされて Google の検索結果に出てくることがあるのか? Bing の Edge のようにブラウザを提供しているほかの検索エンジン会社でもどうなのだろうか?
Google の John Mueller(ジョン・ミューラー)氏がコメントを書き込みました。
検索エンジンがページを発見しないで非公開に保っておくと当てにしてはいけない。インデックスさせたいのかさせたくないのかをはっきりさせておくべきだ。
驚くほど素速くページへのリンクが(ほかのページに)出現することがある。たとえば次のようなものだ。
- メーリングリストでユーザーが共有する(そしてウェブで公開される)
- 関連ページとしてプラグインが共有する
- 参照元をリストとして公開するサイトがある
- 誤って自分自身が公開してしまう
- 気付かずにサイトマップが自動的に生成される
検索エンジンの特定のアクションを要求するなら、インデックスさせるのかさせないのかの明確なシグナルを提供しなければならない。
インデックスさせるのかさせないのかを明確に
Chrome での直接のアクセスほか、Google アナリティクスが設置されたサイトへのアクセスあるいは Gmail での共有によって、Googlebot が URL をクロールするのではという憶測をときおり耳にします。
Googlebot が URL を発見するにはリンクまたはサイトマップが必要です(ほかには Indexing API や URL 検査ツールからのインデックス送信)。
これらなしで、ブラウザから直接アクセスしてたけではクロールはされません。
Gmail に届いたメールに書かれている URL や(ウェブ上で非公開の)Google ドキュメントの URL を、たとえ同じ会社のプロダクトであっても URL の発見には Google 検索は使いません。
信じないという意見があるかもしれません。
ですが、それはそれとして、ミューラー氏がアドバイスするように、インデックスさせるのかさせないのかをサイト側から明示することが実際問題として重要です。
インデックスさせるのであれば、次は必須です。
- すでにインデックスされているページからリンクする
- サイトマップを送信する
インデックスさせたくないのであれば次の方法を利用できます。
noindex robots meta
タグを追加する- パスワードで保護する
- robots.txt でブロックする(ただし、robots.txt はクロール制御が目的なのでインデックスを完全には防げない)
インデックスさせるのかさせないのかを明確に示しておきましょう。