[レベル: 中級]
昨日、日本時間の 2020 年 8 月 11 日の午前中から尋常ではない大変動が Google 検索に発生しました。
単なるアルゴリズムのアップデートとは思えない、異常な検索結果が各所で観測されました。
蓋を開けてみると、アルゴリズム更新ではなくインデックス システムに発生した障害が原因とのことでした。
おそらく今朝は元どおりに戻っているはずです。
カフェインに不具合発生
Google Webmaster の Twitter 公式アカウントが次のようにアナウンスしました。
月曜日に、Google の検索結果に影響するインデックスシステムの問題を検出しました。問題が検出されるとすみやかにサイト リライアビリティ エンジニアによって修正され、問題はもうそろそろ緩和しているはずです。
On Monday we detected an issue with our indexing systems that affected Google search results. Once the issue was identified, it was promptly fixed by our Site Reliability Engineers and by now it has been mitigated.
Thank you for your patience!— Google Webmasters (@googlewmc) August 11, 2020
「インデックス システムの障害」とだけ言及しています。
Gary Illyes(ゲイリー・イリェーシュ)氏がもう少し突っ込んで説明してくれました。
Caffeine と呼ぶインデックス システムが複数の処理を実行する:
- fetchlogs を取り込む
※すずき補足: “fetchlogs”(フェッチログ) は Googlebot がクロールして取得した各種データのことだと思います- 取得したデータをレンダリングし変換する
- リンクや meta データ、構造化データを抽出する
- ほかにもシグナルを抽出しコンピュータ処理する
- 新しいクロールをスケジュールする
- 検索結果の配信に使うインデックスを構築する
本来そうあるべきことのほとんどがおかしくなると、それに続く処理にも何らかの形で現れる。もしスケジューリングが失敗すれば、クローリングが遅れるかもしれない。レンダリングがうまくいかなかったら、ページ(の内容)を適切に理解できないかもしれない。インデックス構築がダメだったら、ランキングや検索結果配信が影響を受けるかもしれない。
検索を単純にとらえてほしくない。というのも、単純なものではぜんぜんないからだ。何千ものシステムが相互に作用して、高品質で関連性がある結果をユーザーに提供している。一粒の砂が装置に入っただけで昨日のような機能停止が起きてしまうんだ。
The indexing system, Caffeine, does multiple things:
1. ingests fetchlogs,
2. renders and converts fetched data,
3. extracts links, meta and structured data,
4. extracts and computes some signals,
5. schedules new crawls,
6. and builds the index that is pushed to serving.— Gary 鯨理/경리 Illyes (@methode) August 11, 2020
If something goes wrong with most of the things that it's supposed to do, that will show downstream in some way. If scheduling goes awry, crawling may slow down. If rendering goes wrong, we may misunderstand the pages. If index building goes bad, ranking & serving may be affected
— Gary 鯨理/경리 Illyes (@methode) August 11, 2020
Don't oversimplify search for it's not simple at all: thousands of interconnected systems working together to provide users high quality and relevant results. Throw a grain of sand in the machinery and we have an outage like yesterday.
— Gary 鯨理/경리 Illyes (@methode) August 11, 2020
Caffeine(カフェイン)は Google 検索が利用しているクローリング・インデックシングのインフラの名称です。
2010 年 6 月に正式導入されました。
Caffeine では、クロール・インデックスの規模と速度がそれまでのインフラよりも飛躍的に改善しました。
ページを公開した数秒後にもう検索結果に出てくるのは Caffeine の性能によるものです。
より多くのページをインデックスできるようにもなりました。
昨日の大変動はアルゴリズム更新ではなく、Caffeine に発生した障害が原因だったとのことです。
インデックスのデータベースを Caffeine が適切に構築できませんでした。
検索結果の作成に使われるデータがおかしくなっているのですから、そこから作られる検索結果がおかしくなるのは道理にかなっています。
検索アルゴリズムの問題ではありません。
腐ったリンゴで作ったアップルパイは、たとえプロのパティシエが作ったとしてもおいしくないはずですよね。
適切な例えではないかもしれませんが、ようはこんなイメージでしょう。
1 年近く前にも大規模なインデックス障害が Google 検索に発生しました。
詳しい状況説明を Google は公式ブログで公開しました。
今回の障害についても、もっと詳しい説明が後日あるかもしれません。
いずれにしても、昨日の理解しがたい大変動はインデックス障害によって発生しました。
教訓として得られるのは、
- Google といえども不具合は発生する
- 変動が発生してもパニックを起こさない、まず冷静に様子をみる
ですかね。