99%のウェブスパムは自動で対策している、2020年のスパムレポートをGoogleが報告

[レベル: 初級]

ウェブスパム対策の 2020 年の取組状況を Google は公式ブログで報告しました。

この記事では、主要点を簡潔にまとめます。

スパム対策の成果

2020 年のスパム対策の成果は次のようになっています。

  • AI(人工知能)の発達により、自動生成コンテンツとスクレイピングを数年前と比較して 80% 以上削減
    ※「スクレイピング」は、ほかのサイトのコンテンツを無断でコピーするスパム。多くの場合は自動化されている
  • ハッキングされたサイトの検出能力を 50% 以上向上――ハッキングされたサイトのほとんどを検査結果から削除
  • コロナ関連のスパムサイト対策に特に注力

AI がスパム対策のアプローチ方法に大改革をもたらしたそうです。
既知のスパムだけではなく、新たに出現したスパムに対してもすみやかに対処できるようになりました。

スパム防止策

400 億のスパムを Google は毎日発見しているとのことです。
スパムサイトが検索結果に出ないように事前に防ぐ取り組みにも力を入れています。

  • クロールの時点でスパムを検出。スパムと判断したページはインデックスしない
  • AI を使って、Search Console の所有権をスパマーが不正に取得するのを防ぐ
  • インデックスしてしまったスパムコンテンツを分析するシステムも持っている――スパムコンテンツをインデックスすることを防ぐための改良にこの情報を用いる
  • 自動化システムにより検索結果からの訪問の 99% はスパムでなくなっている――逃してしまったごくわずかのスパムには手動で対策

各段階で Google はスパムを防いでいます。

  1. クロール
  2. インデックス
  3. 手動による対策

スパム対策のプロセスを表した図

スパムコンテンツは、クロールで発見した段階でそもそもインデックスしません。

それでも、すべてを検出することはできずインデックスしてしまうスパムがあります。
インデックスしたあとでも、スパムでないかどうかを監視します。
ここで得たスパムのデータはクロールでのスパム検出の改良のためにフィードバックされます。

クロールとインデックスのスパム防御は自動です。
自動ですべて防げればいいのですが、やはり完璧というわけにはいきません。
最終的には、スパムチームのスタッフが目視でスパムを排除します。
これが「手動による対策」です。
そうは言っても、99% のスパムは自動で対策できているとのことです。

新手のスパム

また、近年は偽サイトのスパムが増えているそうです。

たとえば、サポートセンターを偽って偽の電話番号に電話をかけさせます。
そして銀行からお金を振り込ませたりギフト券を送らせたりします。

こうした新手のスパムの対策も飛躍的に向上しています。

ランキングのアルゴリズムと同様にスパム対策の分野でも AI が進出している印象を持ちました。
レポートのいたるところで AI が強調されています。

ところで、このスパムレポートで言う「スパム」は、ユーザーに本当に害を与えるスパムなのだろうと僕は考えます。
つまり、ハッキングしたサイトや詐欺サイト、価値がない自動生成コンテンツのサイトです。

不正なリンクで上位表示しているリンクスパムは含まれていないのではないでしょうか?
リンクスパムは、上位表示のための手法はスパムですが、サイトとしてはまっとう(?)で、ユーザーに実害を与えることはないと言えばないですよね。
こういうスパムは外しているんじゃないかと。
もし含めていたら、99% のスパムを検出しているという数字には疑問を感じます。

いずれにしても、Google はウェブスパム対策に継続して取り組んでいるのは確かなことです。