[レベル: 上級]
管理するウェブサイトのコンテンツが AI の学習に利用されないようにする方法を Apple は提供しました。
Applebot-Extended を新規導入
Applebot-Extended
というユーザーエージェントのクローラを Apple は新たに公開しました。
Applebot-Extended について、Apple は次のように説明しています。
Appleは、二次的なユーザーエージェントである Applebot-Extended を導入しており、これによりWeb発行者は、Apple がウェブサイトのコンテンツをどのように使用できるかについて、より詳細な制御が可能になります。
Applebot-Extendedを使用することで、ウェブ発行者は、Apple Intelligence、サービス、開発ツールなどの Apple 製品全体で生成 AI 機能を強化する Apple の基盤モデルのトレーニングに、ウェブサイトのコンテンツが使用されないようにすることができます。
参考までに、Applebot
というユーザーエージェントを Apple は以前から使用しています。
Applebot に関する Apple の説明は次のとおりです。
Applebot によってクロールされたデータは、Spotlight、Siri、Safariなど、Apple のエコシステムに組み込まれた多くのユーザー体験における検索技術をはじめ、さまざまな機能を強化するために利用されます。robots.txt で Applebot を有効にすることで、ウェブサイトのコンテンツは、これらの製品を通じて世界中の Apple ユーザーの検索結果に表示されるようになります。
今回新たに導入された Applebot-Extended
は Applebot
とは別のクローラです。
説明したように、Apple の AI トレーニング用にウェブサイトのコンテンツを収集する役割を果たします。
Applebot-Extended のクロールを robots.txt でブロック
自分のサイトのコンテンツを AI の学習に Apple が利用するのを望まない場合は Applebot-Extended のクロールを robots.txt でブロックすることで実現できます。
サイト内のすべてのコンテンツを AI 学習に利用させたくなければ、次のように robots.txt に記述します。
User-agent: Applebot-Extended
Disallow: /
特定の場所のコンテンツ、たとえば、private フォルダの中のコンテンツだけは AI 学習に使ってほしくなければ次のように記述します。
User-agent: Applebot-Extended
Disallow: /private/
そのほかの主要な生成 AI によるトレーニング利用を防ぐ方法
補足として、そのほかの主要な生成 AI がサイトのコンテンツを学習データとして利用するのを防ぐ方法をおさらいしておきます。
Gemini
Google の Gemini がサイトのコンテンツを学習データとして利用するのを拒否するときは、Google-Extended
ユーザーエージェントを robots.txt
でブロックします。
詳細はこちらの記事を参照してください。
📝すずき注:リンク先記事は、Gemini の旧名称である Bard が使われているが仕様は変わっていない
なお、AI Overview (旧 SGE) の学習の拒否には Google-Extended
は利用できません。
AI Overview は検索の一部なので Googlebot をブロックすることになります。
当然、通常の検索にも影響が出てしまいます。
ChatGPT
ChatGPT が、サイトのコンテンツを学習データとして利用するのを拒否するときは、GPTBot
ユーザーエージェントを robots.txt
でブロックします。
詳細はこちらの記事を参照してください。
Copilot
Microsoft の Copilot (旧 Bing チャット) がサイトのコンテンツを学習データとして利用するのを拒否するときは、noarchive robots meta
タグをページに追加します。
📝すずき補足:もしくは、HTTP ヘッダーの X-Robots-Tag
で noarchive
を送信する
詳細はこちらの記事を参照してください。
注意点として、この方法は Copilot だけではなく通常の検索にも影響が出ます。
Microsoft は、AI トレーニング用のユーザーエジェントを提供していません。
Claude
Claude がサイトのコンテンツを学習データとして利用するのを拒否するときは、ClaudeBot
ユーザーエージェントを robots.txt
でブロックします。
ClaudeBot
についてはこのブログで取り上げたことがないので、公式サイトのドキュメントを参照してください。
Common Crawl
オープンなデータソースとして誰もが自由に利用できるのが、Common Crawl が提供するアーカイブとデータセットです。
さまざまな LLM が Common Crawl のデータを利用していると思われます。
Common Crawl によるサイトのコンテンツの取得を防ぐには、CCBot
ユーザーエージェントのクロールを robots.txt
でブロックします。
詳細はこちらの記事を参照してください。
自サイトのコンテンツを無許可で AI の学習に利用させたくなければ、各 AI 企業が提供している手段で拒否設定してください。