[レベル: 上級]
管理するサイトのコンテンツを ChatGPT に利用されるのを防ぐために、ChatGPT が運用するクローラの GPTBot を robots.txt
でブロックできます。
ChatGPT のウェブクローラは GPTBot
ChatGPT の開発/提供元である OpenAI は、ウェブクローラに関係する技術ドキュメントを最近新たに公開しました。
OpenAI が使用するクローラのユーザーエージェント (UA: User Agenet) は GPTBot です。
完全な UA 文字列は次のとおりです。
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
GPTBot の用途は次のとおりです。
Web pages crawled with the GPTBot user agent may potentially be used to improve future models and are filtered to remove sources that require paywall access, are known to gather personally identifiable information (PII), or have text that violates our policies. Allowing GPTBot to access your site can help AI models become more accurate and improve their general capabilities and safety. Below, we also share how to disallow GPTBot from accessing your site.
以下は日本語訳です。
GPTBot ユーザーエージェントでクロールしたウェブページは、将来のモデルの改善に役立てられる可能性があります。その際、課金が必要なコンテンツ、個人情報を収集することがわかっているソース、当社の方針に反するテキストは除外されます。GPTBot にあなたのサイトへのアクセスを許可することで、AI モデルの精度向上や一般的な能力と安全性の改善に役立つ可能性があります。以下では、GPTBot によるサイトアクセスを拒否する方法も共有します。
ウェブに存在するコンテンツを収集し、そのデータを学習やそのほかの目的のために GPTBot を利用するとのことです。
GPTBot を robots.txt でブロック
ChatGPT や、今後出てくるかもしれない OpenAI の AI プロダクトに自分のサイトのコンテンツを無断で使われたくないと考える場合は、GPTBot のクロールを拒否できます。
Google や Bing などの一般的な検索エンジンのクローラのときと同じように robots.txt
で設定します。
すなわち GPTBot は、robots.txt
のルールに従います。
GPTBot のクロールを完全に拒否
サイト全体への GPTBot のクロールを完全に拒否したいときは robots.txt
に次のように記述します。
User-agent: GPTBot
Disallow: /
GPTBot があなたのサイトをクロールすることはありません。
特定の URL へのクロールを制御
特定のディレクトリやファイルへのアクセスに限定して拒否(と許可)することもできます。
User-agent: GPTBot
Disallow: /no-chatgpt/
Allow: /no-chatgpt/public/
上の記述例では、/no-chatgpt/
配下の URL への GPTBot のクロールを禁止しています。
しかし、例外的に /no-chatgpt/public/
配下の URL には GPTBot のクロールを許可しています。
ドキュメントには明記されていませんが、robots.txt
の仕様を定める Robots Exclusion Protocol に準拠しているのだろうと思います。
なお、GBPBot を含む OpenAI が使用するクローラの IP アドレス範囲も OpenAI は公開しています。
IP アドレスでアクセスを拒否したいときなどに利用できます。
ChatGPT のプラグインが使うクローラのアクセスを robots.txt
で拒否できることは以前に紹介しました。
この記事で紹介したのは、プラグインではなく ChatGPT 本体のクローラのブロック方法でした。
自分のサイトの情報を ChatGPT に勝手に使われたくないと考えるならば、GPTBot のクロールを robots.txt
でブロックするといいでしょう。
[H/T] WebmasterWorld