外部流出したGoogle内部文書を解析-その2

SEOスパム禁止昨日投稿した流出したGoogleの内部ドキュメントの解説を続けます。

今日は、マニュアルの「Webspam Guidelines」というウェブスパムのガイドラインに関するセクションついてです。

ウェブスパムとは何か、どんな種類があるか、どうやって見分けるかが説明されています。

ウェブスパムというのは、サーチエンジンのロボットをだましてアクセスを集める不正な行為のことです。
SEOスパム、サーチエンジンスパムと言ったほうが、僕たちには馴染みあがるかもしれませんね。

ウェブスパマーは、不正な手法でアクセスを集めて、主にPPC広告とアフィリエイトによって収益を上げます。

しかし、すべてのPPCサイトやアフィリエイトサイトがウェブスパムと認識されるわけではありません。
付加価値のある情報、たとえば次のような情報を提供していればウェブスパムとはみなされません。

  • 料金比較:購入のためにアフィリリンクを踏んでビジターが他のサイトへ移動しても、価格比較の有益な情報があればOK
  • 評価・レビュー:書籍や電化製品、ホテルなどオリジナルの評価、レビューがあればOK
  • レシピ:料理のレシピページはOK
  • 詩・引用:詩や引用はOK
  • 連絡先情報:(ネットではなく)物理的な住所や電話番号が書いてあればOK
  • クーポン・割引・プロモーションコード:購入者にクーポンや割り引き、プロモーションコードを提供するアフィリサイトはOK

マニュアルでは、ウェブスパムサイトを8種類に分類しています。

  1. PPC Pages
  2. Parked Domains
  3. Thin Affiliates
  4. Hidden Text and Hidden Links
  5. JavaScript Redirects
  6. Keyword Stuffing
  7. 100% Frame
  8. Sneaky Redirects

今日は、1?4までを順に説明していきますね。


PPC Pageは、役に立つ情報を提供するコンテンツがなく、PPC広告による収益をあげることのみを目的に作られたページです。

PPCページは、PPC広告だけだったり、リストのように見せかけたPPCのリンクだけが並んでいたりします。

他には意味をなさないコンテンツのページ、自動記事作成ツールで別のサイトから取得してきたコンテンツのページ、他のサイトから盗んだコンテンツのページ、RSSで自動収集したコンテンツのページ、WikipediaやDMOZからの引用だけのページ、自動サイト作成ツールで作られた同じテンプレートで構成されたページがあります。

他のサイトのコンテンツを引用するのは、必ずしも悪いということでもありません。
詩や歌詞、引用、ことわざなどは、意味をなしているならスパムと判定しません。
他のソースから取得したコンテンツを取り除いたら、何も残らないのがウェブスパムです。



Parked Domain(パークドメイン)とは、ドメインだけ取得しておいて、特にコンテンツをアップせずにウェブ上に“駐留”させておく未完成のサイトのことです。

スパマーは、以前に受けていた被リンクの恩恵を受けるために、契約更新されずに期限切れになったドメインを買います。
オリジナルのコンテンツは作ったりせず、有料リンクを販売するページとして利用します。

●パークドメインの例 ⇒ http://www.dasonet.com/todahfzkdk.htm
※ブラウザのアドレスバーにコピペしてアクセスしてください

パークドメインを見分けるには、Wayback Machineを使い、昔のサイトのキャッシュデータと現在のサイトのデータを比較します。


Thin Affiliateは、中身のない薄っぺらいアフィリエイトサイトです。

別ドメインのマーチャントのサイトに誘導するだけのアフィリリンクだけが貼ってあります。
PPCを利用するケースもあります。

●Thin Affiliatesの例 ⇒ http://findmeatune.com/artist-Pink
※ブラウザのアドレスバーにコピペしてアクセスしてください

“薄っぺら”アフィリエイトは、リンクを右クリックして調べることができるリンク先のURLが、別ドメインのURLかどうかで見分けることができます。

すべてのアフィリサイトがウェブスパムとは限りません。
価格比較とか製品レビューなど価値ある情報を提供していれば問題なしです。


Hidden Text and Hidden Linkは、隠しテキスト、隠しリンクのことです。

テキストやリンクを完全に見えなくしたり、背景色とほとんど同じにして、人間の目に文字を見えなくします。
あるいは、文字をものすごく小さくして読めなくしたり、見える範囲の外に文字を置くケースもあります。
人間には見えないけど、検索結果に作用するようにサーチエンジンのロボットだけに見えるような不正行為です。

すべての隠しテキストがスパムではなく、更新日時や著作権表記を目立たないように隠すのは許されます。

CtrlキーとAキーを押して、すべてのコンテンツを反転表示させることで、隠しテキストを発見できます。
●隠しテキストの例 ⇒ http://www.bigraf.it/
※ブラウザのアドレスバーにコピペしてアクセスしてください
↑、このページ、ほとんどが隠しテキストです。(汗)

JavascriptやCSSで隠す場合もあります。
Javasrcriptは、ブラウザのJavascript使用をOFFにすることで発見できますが、CSSはソースを見るなどの上級のスキルが要求されます。

以上が、前半の4種類のウェブスパムについてです。

1つ目のPPCページのウェブスパムは、MFA(Made For AdSense)と呼ばれるアドセンスサイトが有名ですね。

PPCページやアフィリページは、ウェブスパムとしてマークされるものの、価格比較やレビューなどの価値ある情報を提供していれば、問題ないというのは貴重な情報です。

「連絡先情報」もポイントですね。
連絡先情報の掲載で信頼性を持たせると、スパム扱いされる可能性が減るようです。
住所と電話番号を明記したサイト運営者情報を載せるべきでしょう。

Googleが、評価者にWayvback Machineを使って、サイトの過去の歴史を調べさせているというのは驚きました。
でも、よく考えてみれば僕たちウェブマスターがやっていることを、Googleが知っていても何の不思議もありませんね。

以前に、期限切れドメインを購入しても所有者が変わると、それまでのバックリンクはリセットされるという記事を書きました。

所有者が変わったことを検知するのは自動化されたアルゴリズムではなく、人間による手動の作業による可能性もあります。

他のサイトのパクリや、自動ツールで取得したコンテンツだけのページ、同じテンプレートで生成された大量のページのサイトは、見つけられてしまうようです。

Webspam Guidelinesは、「こういうサイトはウェブスパムだ」という案内ですが、反対に言えば「こういうサイトはウェブスパムではない」という案内にもなります。

示唆に富んだ情報が多くありましたね。
活用できそうですか?

明日は、後半の4つについて解説します。