まず、このUS Patent Application(合衆国 特許申請)を見てください。
⇒ Systems and methods for analyzing boilerplate
つい最近、Googleが申請したばかりのパテント(特許)です。
何が書いてあるかというと、「boilerplate(ボイラープレート)」の取り扱いについてです。
boilerplateというのは、僕は初めて聞いた言葉ですが、もともとは活版印刷に使われた鋼板でできた「鋳型(いがた)」のことだそうです。
鋳型ですから、まったく同じものができあがりますよね。
ここから派生して、「お決まりのもの」、さらには「定型文」という意味でも使われるようになりました。
ITの世界でも使われる用語で、「定型書式」、「テンプレート」とを表すときに用いられます。
Googleのボイラープレートに話を戻します。
ウェブページにもボイラープレートは存在します。
なんだか分かりますか?
すべてのページに共通するコンテンツです。
ヘッダー部のロゴやタイトルだったり、サイドバーのナビゲーション、フッター部の会社概要や個人情報保護方針、こういったコンテンツです。
今回Googleが申請したパテントとすでに申請済みのその他のパテントから考察すると、Googleは、ボイラープレートに含まれるコンテンツを、検索対象として無視するよう取り組むようです。
つまり、ボイラープレートの要素は検索結果を決める情報として処理しないということですね。
ボイラープレートをどうやって判断するかというと、出現する場所だったり、出現する頻度、一部のマークアップなどだと推測されます。
上でも例を出したように、必ずヘッダーやサイドバーに登場するコンテンツとか、フッター部に必ずある「About us」ページへのリンクや「HOMEへ戻る」リンク、javascriptやCSSでしたidやclassなどです。
Googleがボイラープレートを無視するとしたら、実際のコンテンツ(文章)の場所や登場回数は重要なポイントになってきそうです。
ひょっとしたら、本当は重要なコンテンツなのにボイラープレートとして判断されて無視されてしまうかもしれません。
すべてのページに貼られているナビゲーションとしてのサイトワイドリンクは、ボイラープレートとして認識されるでしょうが、アンカーテキストは意味を持ちそうです。
今現在、Googleがこの特許を実装して、ボイラープレートを無視しているかどうかは分かりません。
実装していないとしても、将来的には可能性はあります。
同一サイト内の複製コンテンツのトラブルもありますから、決まりきった定型部を除外するのは好ましいことだと僕は思います。
ただし、コンテンツの書き方には今以上に注意関心を払う必要が出てきそうですね。