[レベル: 上級]
この記事では、ChatGPT と Common Crawl がサイトにアクセスするのを防ぐ方法を解説します。
ChatGPT プラグインを robots.txt でブロック
ChatGPT 自体がサイトをクロールすることはありません。
しかし、プラグインがサイトにアクセスすることがあります。
ChatGPT プラグインのアクセスは robots.txt でブロックできます。
UA(ユーザーエージェント)は、ChatGPT-User
です。
サイトへのアクセスを完全に拒否する場合は、次のように robots.txt に記述します。
User-agent: ChatGPT-User
Disallow: /
一部の URL にアクセスさせたくなければ、robots.txt の記述ルールに従って記述します。
User-agent: ChatGPT-User
Disallow: /no-chatgpt/
no-chatgpt
ディレクトリ配下のページへのアクセスを拒否robots.txt の拡張仕様の Allow
ディレクティブを ChatGPT-User はサポートします。
サイト全体へのアクセスは基本的に拒否するものの、特定の URL へのアクセスだけは許可する構成も可能です。Allow
ディレクティブを使います。
User-agent: ChatGPT-User
Disallow: /
Allow: /directory-1/
Allow: /directory-2/
directory-1
と directory-2
のディレクトリ配下の URL にだけアクセスを許可自分のサイトの情報を ChatGPT に使わせたくないという方は robots.txt の利用を検討してください。
また、OpenAI の IP アドレスも公開されています。
IP アドレスでの制御もできます。
ChatGPT のユーザーエージェントおよび IP レンジについては OpenAI のドキュメントで確認できます。
Common Crawl のクローラを robots.txt でブロック
Common Crawl(コモン・クロール)は、ウェブをクロールしそのデータのアーカイブを提供する非営利組織です。
ウェブの膨大な量のデータを蓄積しており、多くの LLM が Common Crawl のデータセットを AI のトレーニングに利用しています。
Google や Microsoft も利用しています。
しかし、自分たちが公開したコンテンツを無許可で使われているとして、Wall Street Journal や CNN のように懸念を抱いているパブリッシャーも存在します。
ChatGPT と同じように robots.txt で、Common Crawl が自分のサイトにアクセスすることを拒否できます。
Common Crawl の UA は CCBot
です。
次のように robots.txt に記述すると CCBot のクロールを完全にブロックできます。
User-agent: CCBot
Disallow: /
自分のサイトで公開しているコンテンツを無許可で Common Crawl に取得されたくないというのであれば、robots.txt の使用を検討するといいでしょう。