管理サイトのコンテンツをAppleがAI学習に利用するのを防ぐ方法

[レベル: 上級]

管理するウェブサイトのコンテンツが AI の学習に利用されないようにする方法を Apple は提供しました。

Applebot-Extended を新規導入

Applebot-Extended というユーザーエージェントのクローラを Apple は新たに公開しました。

Applebot-Extended について、Apple は次のように説明しています。

Appleは、二次的なユーザーエージェントである Applebot-Extended を導入しており、これによりWeb発行者は、Apple がウェブサイトのコンテンツをどのように使用できるかについて、より詳細な制御が可能になります。

Applebot-Extendedを使用することで、ウェブ発行者は、Apple Intelligence、サービス、開発ツールなどの Apple 製品全体で生成 AI 機能を強化する Apple の基盤モデルのトレーニングに、ウェブサイトのコンテンツが使用されないようにすることができます。

📝すずき注:日本語訳は僕による

参考までに、Applebot というユーザーエージェントを Apple は以前から使用しています。
Applebot に関する Apple の説明は次のとおりです。

Applebot によってクロールされたデータは、Spotlight、Siri、Safariなど、Apple のエコシステムに組み込まれた多くのユーザー体験における検索技術をはじめ、さまざまな機能を強化するために利用されます。robots.txt で Applebot を有効にすることで、ウェブサイトのコンテンツは、これらの製品を通じて世界中の Apple ユーザーの検索結果に表示されるようになります。

今回新たに導入された Applebot-Extended は Applebot とは別のクローラです。
説明したように、Apple の AI トレーニング用にウェブサイトのコンテンツを収集する役割を果たします。

Applebot-Extended のクロールを robots.txt でブロック

自分のサイトのコンテンツを AI の学習に Apple が利用するのを望まない場合は Applebot-Extended のクロールを robots.txt でブロックすることで実現できます。

サイト内のすべてのコンテンツを AI 学習に利用させたくなければ、次のように robots.txt に記述します。

User-agent: Applebot-Extended
Disallow: /

特定の場所のコンテンツ、たとえば、private フォルダの中のコンテンツだけは AI 学習に使ってほしくなければ次のように記述します。

User-agent: Applebot-Extended
Disallow: /private/

そのほかの主要な生成 AI によるトレーニング利用を防ぐ方法

補足として、そのほかの主要な生成 AI がサイトのコンテンツを学習データとして利用するのを防ぐ方法をおさらいしておきます。

Gemini

Google の Gemini がサイトのコンテンツを学習データとして利用するのを拒否するときは、Google-Extended ユーザーエージェントを robots.txt でブロックします。

詳細はこちらの記事を参照してください。
📝すずき注:リンク先記事は、Gemini の旧名称である Bard が使われているが仕様は変わっていない

なお、AI Overview (旧 SGE) の学習の拒否には Google-Extended は利用できません。
AI Overview は検索の一部なので Googlebot をブロックすることになります。
当然、通常の検索にも影響が出てしまいます。

ChatGPT

ChatGPT が、サイトのコンテンツを学習データとして利用するのを拒否するときは、GPTBot ユーザーエージェントを robots.txt でブロックします。

詳細はこちらの記事を参照してください。

Copilot

Microsoft の Copilot (旧 Bing チャット) がサイトのコンテンツを学習データとして利用するのを拒否するときは、noarchive robots meta タグをページに追加します。
📝すずき補足:もしくは、HTTP ヘッダーの X-Robots-Tagnoarchive を送信する

詳細はこちらの記事を参照してください。

注意点として、この方法は Copilot だけではなく通常の検索にも影響が出ます。
Microsoft は、AI トレーニング用のユーザーエジェントを提供していません。

Claude

Claude がサイトのコンテンツを学習データとして利用するのを拒否するときは、ClaudeBot ユーザーエージェントを robots.txt でブロックします。

ClaudeBot についてはこのブログで取り上げたことがないので、公式サイトのドキュメントを参照してください。

Common Crawl

オープンなデータソースとして誰もが自由に利用できるのが、Common Crawl が提供するアーカイブとデータセットです。
さまざまな LLM が Common Crawl のデータを利用していると思われます。

Common Crawl によるサイトのコンテンツの取得を防ぐには、CCBot ユーザーエージェントのクロールを robots.txt でブロックします。

詳細はこちらの記事を参照してください。

自サイトのコンテンツを無許可で AI の学習に利用させたくなければ、各 AI 企業が提供している手段で拒否設定してください。