2020年8月11日のGoogle大変動はインデックス障害が原因、コアアップデートではない

[レベル: 中級]

昨日、日本時間の 2020 年 8 月 11 日の午前中から尋常ではない大変動が Google 検索に発生しました。
単なるアルゴリズムのアップデートとは思えない、異常な検索結果が各所で観測されました。

蓋を開けてみると、アルゴリズム更新ではなくインデックス システムに発生した障害が原因とのことでした。
おそらく今朝は元どおりに戻っているはずです。

カフェインに不具合発生

Google Webmaster の Twitter 公式アカウントが次のようにアナウンスしました。

月曜日に、Google の検索結果に影響するインデックスシステムの問題を検出しました。問題が検出されるとすみやかにサイト リライアビリティ エンジニアによって修正され、問題はもうそろそろ緩和しているはずです。

※問題が発生したのは現地時間(太平洋夏時間)の月曜日の午後。Twitter のアナウンスは日本時間が水曜日(今日)に変わったばかりの時間帯

「インデックス システムの障害」とだけ言及しています。
Gary Illyes(ゲイリー・イリェーシュ)氏がもう少し突っ込んで説明してくれました。

Caffeine と呼ぶインデックス システムが複数の処理を実行する:

  1. fetchlogs を取り込む
    ※すずき補足: “fetchlogs”(フェッチログ) は Googlebot がクロールして取得した各種データのことだと思います
  2. 取得したデータをレンダリングし変換する
  3. リンクや meta データ、構造化データを抽出する
  4. ほかにもシグナルを抽出しコンピュータ処理する
  5. 新しいクロールをスケジュールする
  6. 検索結果の配信に使うインデックスを構築する

本来そうあるべきことのほとんどがおかしくなると、それに続く処理にも何らかの形で現れる。もしスケジューリングが失敗すれば、クローリングが遅れるかもしれない。レンダリングがうまくいかなかったら、ページ(の内容)を適切に理解できないかもしれない。インデックス構築がダメだったら、ランキングや検索結果配信が影響を受けるかもしれない。

検索を単純にとらえてほしくない。というのも、単純なものではぜんぜんないからだ。何千ものシステムが相互に作用して、高品質で関連性がある結果をユーザーに提供している。一粒の砂が装置に入っただけで昨日のような機能停止が起きてしまうんだ。

※すずき補足: 最後の一文は、非常に些細なことでも大規模な障害が発生してしまう可能性があることの比喩

Caffeine(カフェイン)は Google 検索が利用しているクローリング・インデックシングのインフラの名称です。
2010 年 6 月に正式導入されました。

Caffeine では、クロール・インデックスの規模と速度がそれまでのインフラよりも飛躍的に改善しました。
ページを公開した数秒後にもう検索結果に出てくるのは Caffeine の性能によるものです。
より多くのページをインデックスできるようにもなりました。

昨日の大変動はアルゴリズム更新ではなく、Caffeine に発生した障害が原因だったとのことです。
インデックスのデータベースを Caffeine が適切に構築できませんでした。
検索結果の作成に使われるデータがおかしくなっているのですから、そこから作られる検索結果がおかしくなるのは道理にかなっています。
検索アルゴリズムの問題ではありません。

腐ったリンゴで作ったアップルパイは、たとえプロのパティシエが作ったとしてもおいしくないはずですよね。
適切な例えではないかもしれませんが、ようはこんなイメージでしょう。

1 年近く前にも大規模なインデックス障害が Google 検索に発生しました。
詳しい状況説明を Google は公式ブログで公開しました。
今回の障害についても、もっと詳しい説明が後日あるかもしれません。

いずれにしても、昨日の理解しがたい大変動はインデックス障害によって発生しました。
教訓として得られるのは、

  • Google といえども不具合は発生する
  • 変動が発生してもパニックを起こさない、まず冷静に様子をみる

ですかね。