[レベル: 上級]
Google は現在、米国外からもクロールできる準備が整っています。
11 月 24 日にシンガポールで開催された Search Central Live Conference Singapore で Gary Illyes(ゲイリー・イリェーシュ)氏が明らかにしました。
米国外からのアクセスをブロックしているサイトをクロールするため
Googlebot は米国、もっと細かく言うとカリフォルニア州マウンテンビューからアクセスしてきます。
📝すずき補足: マウンテンビューは米 Google の本社がある場所
しかし、海外からのアクセスをブロックしているサイトや、その地域に向けたコンテンツを配信しているサイトが存在します。
米国からしかアクセスしない Googlebot はそうしたサイトのコンテンツを取得できません。
そこで、米国の外からもクロールできるような仕組みを実装したとのことです。
Googlebot の IP アドレスリストに反映済み
Googlebot の IP アドレスのリストを 1 年ほど前に Google は公開しました。
このリストに、米国外からクロールする Googlebot の IP アドレスはすでに追加済みだそうです。
IP アドレスから国を判定するツールで調べると、リストには米国以外の国がたしかに含まれています。
キャプチャの上から 2 番目は東京です。
📝すずきメモ: 34 から始まる IP (34.x.x.x) がそれっぽい
ISP が GOOGLE-CLOUD-PLATFORM になっています。
そういえばゲイリーは、Google Cloud のサーバーの IP を使っていると言っていました。
Google Cloud はグローバルで展開しているクラウドサービスです。
世界中にデータセンターを配置しているので、その IP を Googlebot にも利用するというのは理にかなっていますね。
実際には使われていないかも
Googlebot が米国外からもアクセスできるという更新情報には落とし穴があります。
実装は完了しているものの、実際には稼働していないらしいのです。
おそらく使われていないと思うとゲイリーは話していました。
準備だけはできている状態と言えます。
Googlebot のクロールには地域分散クロールという仕組みがあります。
地域対応ページをクロールするための技術です。
今回ゲイリーが言及したのはこの技術のことかなとも思います(でも、地域分散クロール自体は最近公開されたばかりの仕組みではなく、公表されたのは 2015 年 1 月)。
ところが、地域分散クロールも実際にはほとんど利用されていないようです。
米国外からも Googlebot がアクセスしてくるとしても、通常のサイトには無関係な話です。
日本の外からのアクセスをブロックしているサイトをもし運用しているなら、サイトにクロールしてくる Googlebot の IP アドレスを調べてみてください。
ひょっとしたら、日本発の Googlebot が来ているかもしれません。