Google主導のもと、Robots Exclusion Protocol (REP) がインターネット標準に

[レベル: 上級]

robots.txt の仕様を標準化する取り組みに Google は着手しました。

背景

背景を完結に説明します。

検索エンジンのクローラ――Google で言えば Googlebot――のクロールを制御するために robots.txt を利用できます。
robots.txt の仕様を Robots Exclusion Protocol (REP) と呼びます。

REP はもともと Martijn Koster（マーティン・カスター）氏によって 1994 年に考案された仕組みです。
クローラがクロールするときに、過度な負荷をサーバーにかけることを防ぐことが目的でした。
ちなみに、Koster 氏自身がウェブサイトを管理するウェブマスターでした。

仕様の公開以来 25 年、REP は幅広く使われるようになり事実上の標準になりました。
現在、5 億のサイトが使用しているとのことです。

しかし、事実上の標準ではあるものの正式なインターネット標準ではありませんでした。

そのため、利用者によって使い方や解釈の仕方が微妙に異なってくることがあります。
たとえば、Disallow: のコロンを付け忘れたり、Dis Allow と綴ってしまったりした場合の処理です。

そこで、robots.txt を使用するすべての人（robots.txt に従うクローラの開発者、robots.txt を使用するウェブサイト管理者）のための統一された仕様を作成することに Google は取り組み始めたのです。

Google が主導したとはとはいえ、インターネット標準です。
REP 考案者の Koster 氏やほかの検索エンジン企業とウェブマスターたちと共同で取り組んでいます。
もっといえば、あらゆる人（あなたも！）が最終的な策定へのプロセスに関与できます。

Google が作成した提案文書 (RFC: Request For Comments) は現在 Draft Standard（標準化への草稿）の段階です。
このあと standard（標準）の段階を経て最終的にインターネット標準になります。

インターネット標準になった REP に従えば、開発者・サイト管理者は統一された共通の仕様で robots.txt を利用できます。

サイト管理者に与える影響

さて、僕たちサイト管理者にはどんな影響があるのでしょうか？
今使っている robots.txt に何か変更を加える必要があるのでしょうか？

通常は、何もする必要はありません。

どちらかというと、REP の標準化は、REP を利用するクローラの開発者にとって大きな変革の意味合いが強いです。

ウェブサイトを閲覧するときの HTTP プロトコルもインターネット標準です。
けれど HTTP の仕様をほとんど知しらなくても、ウェブマスターとして僕たちはサイトを公開できるし、ユーザーとして閲覧できますよね。
でも、ウェブサーバーやブラウザを開発するエンジニアは HTTP の仕様を知っている必要があります。
インターネットを離れた例で言えば、エンジンの仕組みを知らなくても自動車を運転できますよね。
でも、自動車メーカーのエンジニアや自動車修理工場の整備員はエンジンの仕組みに熟知していなければなりません。

同じことです。
REP がインターネット標準になることを僕たちはことさら意識する必要はありません。

それでも細かなことを言えば、REP の標準化に伴い、Google の robots.txt のドキュメントには更新が入りました。

これは、別記事で後日説明したいと思います。

ということで、REP のインターネット標準化は、検索エンジン企業（クローラ開発者）には大きなニュースです。
それでも僕たちには、ほぼ影響はありません。