[対象: 初〜中級]
robots.txtについてのちょっとしたトピックをこの記事では取り扱います。
HTTPで通信する一般的なウェブサイトと同様に、ファイルのダウンロードとアップロードに使用するFTPのサイトもGoogleにおいてはrobots.txtでクロールをブロックできます。
設定方法は通常のrobots.txtと同じです。
- クロールを拒否/許可するディレクトリやファイルを disallow/allow で指定する
- 対象となるFTPサイトのルートディレクトリにrobots.txtをアップする
User-Agent: Googlebot Disallow: /
上記のように記述したrobots.txtをルートディレクトリに設置 (ftp://example.com/robots.txt
) しておけば example.com サイトへのFTPによるGooglebotのクロールをすべて拒否できます(example.comがHTTPによる通常のウェブサイトを公開していても、そちらのクロールには影響を与えません)。
注意点は、匿名ユーザー (anonymous) がアクセス可能な状態で意味をなすということです。
認証が必要ならクローラはもともとアクセスできませんね。
またGooglebotに限った話になります(他の検索エンジンがFTPのrobots.txtによる制御をサポートしているかは調べていません)。
普通は、サイトで公開しているファイルのダウンロードにもHTTPを利用してしまうことが多く、FTPを利用することは特に今では少なくなってきているように思います。
それでもFTPサイトを公開していてGooglebotにクロールさせたくない状況が出てきたら、robots.txtでブロックできたことを思い出すといいでしょう。
Reference