Google Proxy Hacking(グーグル プロキシ ハッキング)その2-あなたのページが乗っ取られる仕組み

前回に引き続き、Dan Thies(ダン・シーズ)が、「Google Proxy Hacking: How A Third Party Can Remove Your Site From Google SERPs」で公開した、プロキシサーバーの不正な働きと、グーグルのインデックスアルゴリズムのバグで、ウェブページが乗っ取られてしまう危険性について、解説します。

Proxy Server(プロキシサーバー)によるHacking(ハッキング)の概要は、次のとおりです。

  1. Proxy Serverが、あなたのウェブページをあたかも自分のサイトのウェブページであるかのようなアドレスで表示する。
    典型的なURL ⇒ http://www.proxyserver.com/proxy/www.yoursite.com
  2. グーグルのクローラ(Googlebot)が上のリンクを発見し、インデックスするためにデータを取得しようとする。
  3. あなたのウェブサイトをホストするウェブサーバーは、Proxy Serverの要求に応じてウェブページのデータをProxy Serverに返す。Proxyサーバーは、コンテンツを取得してキャッシュ(Cache)する。
  4. グーグルは、あなたのウェブページのコンテンツを、http://www.proxyserver.com/proxy/www.yoursite.comというURLでインデックスする。
  5. グーグルは、複製コンテンツ(duplicate content)として、Proxy Serverのサイトではなくあなたのサイトにペナルティを与え、検索結果から削除してしまう。

つまり、オリジナルのあなたのサイトではなく、キャッシュとしてコピーのコンテンツを保存しているProxy Serverを本物として、Googleは処理してしまうのです。

Dan氏は、このGoogle Proxy Hackingの現象を1年以上前に発見し、Googleに通達し対応を求めましたが依然として存在し続けています。
Dan氏以外にも、多くのSEOエキスパートが同様のハッキングを確認しています。

Dan氏のケースは、悪意を持った人間が意図的にクラックしたようですが、気付かずに他人のサイトを乗っ取ってしまう場合もあるようです。

自分のサイトがハッキングされていないか確認するには、Googleで自分のサイトのサイトタイトルを検索してみてください。
自分のサイトが表示されれば、安心です。

とはいえ、このブログのように個人のサイトが狙われることは考えづらいですね。
大手のサイトや、極端にアクセスの多いサイトが、Proxy Hackingのターゲットになると考えていいでしょう。

事前の対処策は、ウェブサーバーの種類(ApacheかIISか)などで変わってきて、方法もいくつかあります。

また、Google以外のサーチエンジン、Yahoo!やMSNでは今のところProxy Hackingは確認されていません。

Dan氏が、Google Proxy Hackingを公開した理由には、悪用を恐れるよりも、ウェブマスターに喚起を促す目的もありました。
そして、Googleへの催促も込められています。

Dan氏は、自分の考察が100%正しいとは言い切れないとも述べていますが、あなたも自分のサイトがのっとられる危険性があるということを、頭の片隅にでも置いておいてください。