コピーコンテンツがオリジナルコンテンツより上位表示されるのを防ぐには

自分が書いたコンテンツが不正にコピーされてしまい、しかも悪いことにそのコピーコンテンツが検索結果で自分のオリジナルコンテンツよりも上位に表示されてしまうことがあります。

原因の1つは、コピーコンテンツが先にGoogleにインデックスされてしまうことにあります。
Googleにコピーがオリジナルだと勘違いされてしまうわけですね。

どのように対処したらいいのでしょうか？

GoogleのMatt Cutts(マット・カッツ)氏がビデオで解説しています。

まずクロールの頻度はPageRankに依存します。
PageRankが高いページを優先的にクロールします。
※鈴木注：GoogleツールバーのPageRankではなくて、Googleが内部で実際に使うリアルPageRankですね。

コピーコンテンツのサイトにPageRankの高いページがたくさんあれば、それらのページ経由でコピーページが先にインデックスされてしまうかもしれません。

そこで、早くインデックスさせるために次のような方法をMatt Cutts氏はアドバイスしています。

ツイートして、それを見たユーザーからリンクを張ってもらえるようにする。
※鈴木注：ツイート中からのリンクではなく、ツイートを見たフォロワーが別のページから（nofollowの付いていない）リンクを張るという意味です。
PubSubHubbubを使う。更新と同時に通知するのですぐにインデックスしてもらえるかもしれない。

もしコンテンツをコピーされてしまった場合は、デジタルミレニアム著作権法(DMCA)に基づいて、Googleに著作権侵害の申し立てをすることができます。
※著作権侵害通知を送るための手順は、Web担当者Forumの安田編集長が書いたこちらの記事が詳しく解説しています。

また自動生成ツールを使って大量のコンテンツをコピーしているようなサイトは、スパムレポートからの通報も可能です。

先にインデックスさせる方法はこれをやれば絶対確実というわけではなさそうだし、コピーを削除させる方法は面倒ですね。

オリジナルコンテンツとコピーコンテンツをGoogleが正しく識別できれば、それで済む話です。
僕たちの手をわずらわせてほしくないですよね。

Matt Cutts氏(Google)もこの点は認識していて、オリジナルとコピーを見分けるのはとても難しく、完全ではないことをビデオの中で認めています。

SMX Westでも、コピーサイトがオリジナルサイトよりも上に出てきてしまうことを指摘され、難しい問題で解消できるように頑張って取り組んでいるところだとMatt Cutts氏は言っていました。

ウェブ全体を同時にクロールすることは設計上はほぼ可能だけれど、そんなことをしたらウェブを“クラッシュ”させてしまうかもしれないので、制限をかけてクロールしているそうです（とてつもなく大量のリクエストが同時に発生するから？）。

コピーコンテンツを排除することは、現状ではたやすいことではなさそうです。

コピーだけならまだしも、コピーが自分よりも検索順位が上だったらなんとかしてほしいと思うでしょう。

僕のブログのコンテンツもコピーされていますが、幸いにもPageRankやオーソリティがそんなコピーサイトよりも高いので、下に来てしまうということはまずありません。
でも決して気分のいいものではありません。

DMCAの申し立てやスパムレポートに頼らずとも、Googleがオリジナルとコピーを早く正当に識別できるようになることを願うばかりです。

なお、ニュースコンテンツを他のサイトに同意して配信許可している場合、オリジナルの配信元を明確にするためのmetaタグを2種類、Googleは提供しています。

syndication-sourceタグ
original-sourceタグ

詳しくはヘルプを参照してください。

ついでに補足しておきます。

syndication-sourceタグとrel=”canonical”タグの両方が記述されていた場合は、rel=”canonical”タグが優先されます。
rel=”canonical”があれば、syndication-sourceは不要です。
部分的なURLやドメイン名しか分からない場合は、syndication-sourceを使います。
※Google News公式ブログより