RSS配信による複製コンテンツを防ぐ方法

Duplicate Contents多かれ少なかれ、サイト運営者の多くは、コンテンツ盗用を経験しているのではないでしょうか。

自分が苦労して書いた記事を、あたかも自分が書いた記事のように、勝手に使われるのは気分のいいものではありません。

今は、RSS配信が普及して、指定したサイトや関連キーワードの記事を自動的に収集して、貼り付けるプログラムも出回っています。

僕のブログ記事は、「インデックス」というキーワードに反応して、インデックスファンドをトピックにした投資系のサイトに引用されたこともあります。(笑)

配信元を付記していれば何の問題もありませんが、コンテンツだけ盗んで利用する不届きな輩が多いのも事実です。

自動ツールはともかくとして、手動でコンテンツを盗用されるのは「自分が盗まれるほどいい記事を書いている」と、前向きに考えることもできます。

ですが、検索結果で、オリジナルの自分の記事よりも盗用された記事のほうが上位に表示されたら、たまったものではありません。

しかも複製コンテンツとして、自分の記事が消えてしまったら、それはもう目も当てられない状況です。

コンテンツ盗用を防ぐことは、インターネットでオープンに情報公開している限り防ぐことはできません。

しかしながら、オリジナルの自分のサイトが複製コンテンツとして、盗用サイトに負けてしまうということは、ある程度防ぐことができそうです。

サーチエンジンが複製コンテンツを認識するプロセスは、次のようになっているようです。

  1. サーチエンジンのロボットは、コンテンツをクローリングしてインデックスする際、それまでにインデックスされているコンテンツと同じものでないかどうか、チェックする。
  2. 次に、そのページがリンクファームに参加していたり、MFA(Made For AdSense)サイトだったり、ブラックリストに乗載っているサイトでないかチェックする。引っかかれば複製コンテンツとしてフラグを立てる。
  3. そして、それぞれのウェブページの被リンクの状態やサイトのクオリティで、本物がどれかを判断する。

これを見ると、自分のサイトがそもそもブラックなサイトだったり、自分のサイトよりもサーチエンジンに評価されているサイトにコンテンツを使用された場合は、オリジナルの自分のサイトが複製コンテンツとして、みなされてしまう可能性があります。

以前、GoogleのWebmaster Central Teamで働いていたvanessa Fox女史がブログで、RSS配信による複製コンテンツの3つの防止策を投稿しているので、それを紹介します。

1つめは、RSS配信用のコンテンツを別に作成することです。自分のサイトでは、より丁寧なコンテンツをアップします。
ただ、これはブログではなかなか難しいでしょう。
ブログでのRSSは、全文配信をしないというのも1つの手です。

2つめは、記事の本文中に自分のサイトへのリンクを貼っておくことです。
こうすれば、必ず自分のサイトへリンクバックされるので、自サイトの評価を上げる要因になります。
コンテンツ盗用による複製コンテンツ扱いを防ぐのにも、役立ちそうです。

3つめは、RSSで記事引用しているサイトの運用者に頼んで、そのページをインデックスさせないように設定してもらうことです(robots.txtやmetaタグを利用)。
これは、なかなか難しいかもしれません。
でも、引用先のサイトの評価が自分のサイトよりもずっと高いときは、いくらリンクバックしてもらっても、負けてしまうことがあります。
良識のあるウェブマスターなら、理解してくれるでしょう。

決定的な防止策にはなりませんが、自分の大切な記事が複製コンテンツ扱いされないようにするための手段として、知っておいて損はないでしょう。

Googleは、複数のサイトにまたがる同一コンテンツを発見した場合、オリジナルのコンテンツを検索結果に表示すよう上手に対処できていると、言っています。

しかし、実際には盗んだサイトが本物の自分のサイトよりも、上位に表示されるケースが存在します。
どうしても、我慢ならないときは、ダメもとでGoogleに著作権侵害を申し立ててみてください。
詳しくはこちらを。
デジタル ミレニアム著作権法