スクレイピングを防ぐための現時点でもっとも効果的な方法

[レベル:中〜上級]

今日はスクレイパーに打ち勝つ方法を紹介します。

まず用語を定義しておきます。

他人のサイトのコンテンツを第三者が無断でコピーすることを“スクレイピング”(Scraping)と呼びます。
スクレイピングするスパマーのことを“スクレイパー”(Scraper)と呼びます。

ウェブの世界ではスクレイピングを防ぐ方法はありません。
コピペは、特殊な設定をしていない限り誰でも可能です。
RSS配信していれば更新と同時にコンテンツを自動で取得することも簡単にできます。

ところがやっかいなのは、スクレイパーのサイト(ページ)がオリジナルであるはずの自分よりも上位に来てしまったり、最悪のケースは自分が重複コンテンツ扱いされて検索結果での順位を大きく下げたり、除外されてしまうことです。

日本にはまだ正式に導入されていないパンダ・アップデートでは、スクレイパーの存在によって誤ってクロスドメインの重複コンテンツとみなされ被害を受けているサイトが少なくありません。

そこで自分がオリジナルであるとGoogleに強くアピールする手段が必要になってきます。

以下の方法が効果的です。

  • PubSubHubbubを利用する
  • RSSフィードの配信を遅らせる
  • 全文配信しない
  • 著者情報(Authorship)を設定する

実はこれは、WebmasterWorldのGoogleフォーラム管理者に1ヶ月前に参加したPubConでパンダ・アップデート対策の1つとして直接聞いてきた施策です。

彼が関わっているクライアントのサイトで実際に効果を出しているそうです。

Googleがオリジナルコンテンツを判断する指標はいくつかあり、そのなかでもっとも比重が大きそうなのがGoogleがコンテンツを発見したタイミングです。

いちばん先にインデックスされたコンテンツがオリジナルとみなされやすいのです。

コンテンツの公開と同時にインデックスさせるには“PubSubHubbub(PuSH)”が最高の手段になります。

PubSubHubbubは、“Fat Ping”という言葉を使いGoogleのMat Cutts(マット・カッツ)氏も利用を推奨しています。

PubSubHubbubの仕様に従って自分でシステムを組めるなら組めばいいし、WordPressにはPubSubHubbubに対応したプラグイン2つあります。

Google自身もHubサーバーを運用しているのでここに通知すればいですね。

PubSubHubbubの利用と合わせてRSSの配信を遅らせることも役立ちます。
オリジナルである自分と、RSSからコンテンツを引っ張ってくるサイトにタイムラグを生じさせることができるからです。

全文配信ではなく一部分だけを配信することで、スクレイパーにはすべてのコンテンツが渡らなくなります。
一部分だけのコンテンツをオリジナルとはさすがにみなさないでしょう。

rel=”author”などを使ってコンテンツの著者情報を伝えるのも効果があるかもしれません。
rel=”author”の実装によってパンダ・アップデートから回復したとしか思えないサイトがあるということでした。

ただ、日本のグーグルや日本語サイトにも著者情報が適用されているかは不確かです。
出せた人はいますか?

スクレイパーに手を焼いている人はもちろん、合意のもとに他のサイトへコンテンツを配信している場合においても今日紹介した施策は有効です。

残念なことですがGoogleに完全に任せることはできないので、本物なのに偽物扱いされないように自衛手段を講じましょう。