[レベル: 上級]
Google は、Google-Extended
という新しいユーザーエージェントを追加しました。
Bard と Vertex AI generative API の生成 AI にサイトのコンテンツを利用させるかどうかを制御できます。
Google の AI にコンテンツを使われたくなければ Google-Extended を robots.txt でブロック
Bard および Vertex AI generative API が利用する生成 AI にサイトのコンテンツを使わせたくない場合は、Google-Extended
のクロールを robots.txt
でブロックします。
次のように robots.txt 記述すると、サイト内のすべてのコンテンツの利用を拒否できます。
Use-Agent: Google-Extended
Disallow: /
Google-Extended
によるクロール制御は、現在のモデルだけではなく、将来リリースされる世代のモデルにも適用されます。
Google-Extended は実際には存在しないクローラ?
ここは技術的な余談です。
完全なユーザー エージェント文字列は Google-Extended
には提供されていません。
次のように Google は説明しています。
Google-Extended は個別の HTTP リクエストユーザーエージェント文字列を持っていません。クローリングは、既存の Google ユーザーエージェント文字列で行われます。robots.txt ユーザーエージェントトークンが制御機能として使用されます。
Google-Extended
というトークンのユーザーエージェントが実際にクロールするわけではないようです。
おそらく、通常のウェブ用の Googlebot がクロールを実行し、その後のプロセスで Bard および Vertex AI generative API にコンテンツを利用させるかどうかを判断しているのではないかと思われます。
したがって、サーバーのログファイルには Google-Extended
は記録されないのではないでしょうか?
いずれにしても、Bard と Vertex AI generative API のトレーニングに自分のサイトのコンテンツを使わせたくなければ、Google-Extended
を robots.txt
でブロックしてください。