[レベル: 上級]
Googlebot がクロールの対象とするのはコンテンツの最初の 15MB までです。
Googlebot を説明する技術ドキュメントにこの仕様が追加されました。
15MB より後はクロールしない
ドキュメントに追加されたのは次の記述です。
Googlebot can crawl the first 15MB of content in an HTML file or supported text-based file. After the first 15MB of the file, Googlebot stops crawling and only considers the first 15MB of content for indexing.
この記事を書いている時点では、日本語ドキュメントは未更新です。
日本語に訳すと次のようになります。
【UPDATE (2022/1/16)】
日本語ドキュメントにも変更が反映されました。
Googlebot は、HTML ファイルまたはサポートされているテキストベースのファイルの最初の 15 MB の部分をクロールできます。HTML で参照されるリソース(画像、動画、CSS、JavaScript など)は個別に取得されます。ファイルの最初の 15 MB を超えると、Googlebot はクロールを停止し、最初の 15 MB のみをインデックス登録の対象とします。ファイルサイズの上限は、非圧縮データに適用されます。Google の他のクローラーでは制限が異なる場合があります。
たとえば、ファイルサイズが 15MB を超えるような極端に長いウェブページを公開していたとします。
15MB までのコンテンツはクロールの対象になります(必ずクロールするとは限らない)。
ところが、15MB に到達した時点で Googlebot はクロールをやめます。
結果として、15MB 以降のコンテンツはクロールしてもらえません。
クロールされないということは、当然のことながらインデックスもされません。
画像や動画は含まず
画像や動画をいくつも埋め込むと、ページの総サイズは軽く 15MB を超えてしまいます。
心配になった人がいるかもしれません。
問題ありません。
15MB 制限の対象はページ本体です。
通常は HTML ファイルですね。
HTML の実体はテキストファイルです。15MB を超えるほどの HTML ファイルを通常は作成しないでしょう。
ものすごい文字量になるはずです。
15MB の制限に引っかかる可能性があるのは、PDF ファイルや、Word/Excel/PowerPoint といった Microsoft Office 系のドキュメントでしょうか。
もっとも、こうしたコンテンツを検索で発見してもらいたいという要望はそう多くないように思います。
いずれにしても、15MB というのは画像や動画を含んだページ表示を完成させるファイル/リソースの総サイズではありません。
実際問題として、15MB の上限を常に意識する必要はないでしょう。
Google SEO の知識として頭の片隅に入れておけば十分です。