アクションURLのクロールをrobots.txtでブロックするべき、Googleが推奨

[レベル: 上級]

アクション系の URL に対しては robots.txt でクロールを拒否することを Google の Gary Illyes(ゲイリー・イリース)氏が推奨しました。

クロール過多によるサーバーリソースの消費を防ぐため

イリース氏は LinkedIn で次のように投稿しました。

アクション系 URL のクロールを禁止することを強くお勧めする。クローラーは、オーガニックで非遺伝子組み換えのアロマキャンドルを購入することも、ウィッシュリストに関心を持つこともない。

クロールに関するよくある苦情は、クロールが多すぎてサーバーのリソースを使いすぎているというものだ(ただし、それ以外の問題を引き起こすことはない)。苦情が出たサイトから何をクロールしているかを見ると、あまりにも頻繁に「カートに入れる」や「ウィッシュリストに追加」などのアクション URL であることがわかる。こうした URL ははクローラーにとって役に立たず、クロールされることを望まない可能性がある。

次のような URL がある場合は robots.txt ファイルにそれらの disallow ルールを追加すること勧める。

  • https://example․com/product/scented-candle-v1?add_to_cart
  • https://example․com/product/scented-candle-v1?add_to_wishlist

HTTP POST メソッドへの変換もできるが、多くのクローラーは POST リクエストを実行できることを覚えておいてほしい。

アクション系 URL というのは、基本的に、情報表示だけでなくウェブサイトの状態やデータに変更を加える URL です。

「ショッピングカートに商品を追加する」や「ウィッシュリストに商品を追加する」以外にはたとえば次のような操作を実行する URL も該当します。

  • フォームを送信する
  • ダウンロードを開始する
  • 購入手続きを開始する

これらのアクション系 URL をクローラーがクロールしても、実際にはそのアクションを実行しません。
無意味なクロールと言えます。
📝すずき補足:状況によっては Googlebot は、フォーム送信するし、ショッピングカート追加さえ実行することもある

クロール過多によるサーバーリソースの消費を防ぐために、アクション URL のクロール拒否をイリース氏は推奨したのです。
特に大規模サイトでは、クロールの効率化のために不要な URL へのクロール制御は重要になってきます。

アクション URL クロールのデメリット

イリースが指摘したことも含めて、アクション系 URL クロールのデメリットには次のようなものが考えられます。

  • サーバーリソースの無駄使い: アクション URLは、データベースへの問い合わせや計算など、サーバー側で処理を伴うことがよくあり。これらのURLを繰り返しクロールすると、サーバーに不要な負荷がかかり、正規のユーザーの利用が遅くなる可能性がある
  • 意図しない結果: クローラーが意図せずに、カートへの商品追加、フォーム送信、さらには購入などのアクションを引き起こす可能性があり、ウェブサイトの所有者にとって不正確なデータや予期せぬ結果につながることがある
  • 不正確なインデックス: 検索エンジンがアクション URL をインデックスしてしまうと、検索結果ページに無関係な結果が表示され、検索ユーザーの体験が低下する可能性がある
  • セキュリティ リスク: 場合によっては、アクション URL に機密情報が含まれていたり、悪意のある攻撃に対して脆弱である可能性がある。これらの URL をクロールすると、脆弱性が露呈したり、意図しないデータ漏洩につながる可能性がある。

自サイトのアクション系 URL をチェックし、必要であれば robots.txt を構成しましょう。

#Google #SEO