[レベル: 中級]
同じ内容のコンテンツを HTML(ウェブページ)と PDF の両方の形式で公開しても Google 検索では問題にはなりません。
Google は適切に扱えます。
HTML と PDF の両方でコンテンツを公開しても問題なし
同じコンテンツを HTML とダウンロード可能な PDF ファイルの 2 種類の形式で同時に公開しても問題ないでしょうか?
この質問に、Google の John Mueller(ジョン・ミューラー)氏が動画で回答しました。
まったく問題ない
一般的に、Google のシステムは両方のタイプのページを見つけて別々にインデックスすることができる。中の言葉が技術的には重複していても、検索結果に独立して表示される可能性がある。必要な場合は、これを管理するための制御方法もある。
たとえば、noindex HTTP ヘッダーや robots メタタグを使用して、どちらか一方のインデックス作成をブロックしたり、rel=canonical リンク要素を使用して、Google にどちらを優先するかを伝えることができる。
実際には、多くの場合、コンテンツはどちらかの形式でのみ存在する。これは、単にユーザーが望んでいる形式だからだ。レストランのメニューであれば、スマホで見る人が多いので、通常の HTML ページが最適だ。一方で、ハードコピーで記入する必要のある特定のフォームがある場合は、PDF ファイルを使用するのが理にかなっている。ガイドブックやケーススタディなど、両方の形式でうまく機能するコンテンツもあります。
Google システムが、これらのコンテンツを重複と判断した場合は、通常は HTML ページのバージョンに優先順位を与えます。
また、PDF ファイルにはウェブサイトへのリンクを含めることを推奨する。そうすることで、ユーザーがウェブサイトに戻ってくることができる。
要点をまとめると次のようになります。
- HTML と PDF の 2 つの形式で同じコンテンツを公開しても Google 検索では問題ない
- HTTP ヘッダーを構成すれば、片方のインデックスをブロックしたり片方に正規化したりできる
- どちらの形式が適しているかはデバイスや目的による
- 重複コンテンツだと Google が判断した場合は、HTML バージョンが通常は優先される
- PDF にウェブページのリンクを掲載しておくと親切
両方公開できるとしても、スマホで PDF を見るのはきついですよね。
HTML バージョンで閲覧したいです。
とはいえ、最後の PDF 中でのウェブページへのリンクに関しては、反対に、PDF 版のダウンロードリンクをウェブページには設置しておくのも親切です。
ドキュメントとして保存しておけます。
HTTP ヘッダーでの PDF 制御
ミューラー氏は、HTTP ヘッダーで PDF のインデックスや正規化を制御できることにも言及しています。
PDF は HTML ファイルではないので、robots meta
タグを設定できません。
代わりに、HTTP ヘッダーで設定するのです。
たとえば、サイト内のすべての PDF ファイルのインデックスをブロックする場合は、Apache なら .htacess
に次のように記述できます。
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex"
</Files>
X-Robots-Tag
で noindex
を出力しています。
NGINX なら次のようになるでしょうか。
location ~ \.pdf$ {
add_header X-Robots-Tag "noindex";
}
sample.pdf という PDF ドキュメントを、(同じ内容の)https://www.example.com/sample-data/
という URL のウェブページに正規化する場合は、Apache なら次のように記述できます。
<FilesMatch "sample.pdf">
Header set link 'https://www.example.com/sample-data/; rel="canonical"'
</FilesMatch>
NGINX は次のようになるはずです。
location ~ ^/sample\.pdf$ {
add_header Link '<https://www.example.com/sample-data/>; rel="canonical"';
}
PDF を Google は 20 年以上前からインデックスできています。
検索での PDF の扱いに関するよくある質問とその回答を掲載した公式ブログ記事も出ているので、興味があれば参照するといいでしょう。