Googleの意味解析能力の向上によってライティング能力がますます重要になる

言葉だけを単に認識するのではなくその言語が表す「意味」を理解する、Googleの言語解析能力が年々向上しているのは間違いありません。

専門用語で言うところの“Smantic”(セマンティック)で、このセマンティックを処理する力が特に最近飛躍的に伸びてきていることを、WebmasterWorldの管理者が次のような現象によって確信しています。

  • 検索キーワード(キーフレーズ)に入っているキーワードの同意語しかないページが非常に上位に表示される。
  • 検索結果のページタイトルが、もともとのtitleタグではなく、関連するキーワードに書き換えられる。
  • 関連用語として、検索ボックスに入力した単語に単純に基づくというよりも意味的に同じ言葉を含むキーワードが提示される。

上の現象を、1つの単語だけではなく、複数の単語からなるフレーズ(句)でも確認しているそうです。

これにより次のようなことが予想できると続けています。

  • 予期していないキーワードでのトラフィックが増える。
  • 検索ボリュームが、AdWordsキーワードツールで表示されるものと大きく異なるかもしれない。なぜなら意味的に同じ関連用語や、あるいはインスタント検索までもが元々の検索キーワードを塗り替えてしまうことがあるだろうから。
  • このようなセマンティックな知力は検索者の意図の曖昧さを解決し、結果として、たとえ数字が下がったとしてもターゲットを絞り込んだトラフィックを呼ぶだろう。

他のメンバーも、多くがこの発見と分析に同意しています。

「英語の話でしょ」と片付けてはいけません。

ページタイトルが書き換えられる検索結果は半年ほど前から日本でも増えています。
検索キーワードが必ずしも含まれていないページが上位に出てきているケースもあるようです。
関連用語には検索キーワードが含まれていない用語も提示されます。

日本語においても同意語を理解する力がいっそう改善していることは、Googleの公式ブログも伝えています。
Google Japan Blog: 異なる「しょうぶ」 を見分けるGoogle の同義語システム

※この後はややこしい話で知らなくてもまったく問題ないので、「長い記事は読みたくない」という人は最後の「まとめ」までスキップしてOKです。

Googleは1つの単語だけを見て意味を理解するわけではなく、N-gram言語モデルフレーズインデックス (Phrase-Based Indexing) といって、よく結び付いて使われる言葉や複数の単語がまとまって意味を成す句をベースにしてインデックスを処理しています。

フレーズインデックスに関する特許をGoogleはいくつも出願・取得しています。

  • Soviet troops pulled out of Afghanistan.
  • Soviet troops withdrew from Afghanistan.

上の英文を日本語に訳すと次のような感じになります。

  • ソビエト軍はアフガニスタンから引き上げた。
  • ソビエト軍はアフガニスタンから撤退した。

“pulled out of”と“withdrew from”は、日本語訳ではわざと分かりやすく変えましたが、ともに「〜から撤退する・退却する」という意味です。

この2つのフレーズが持つ意味、そしてそれぞれが同じ意味を持つことを理解するフレーズインデックスの仕組みの特許をGoogleは先日出願しました。
※参考:Google's Paraphrase-Based Indexing, Part 1Google's Paraphrase-Based Indexing, Part 2

1個となりにある単語、2個となりにある単語、3個となりにある単語…、N個となりにある単語といってどんな単語が共に使われるのかというN-gramもここでは使われています。

日本のGoogleが「しょうぶ」を見分けるのにも、きっとフレーズインデックス(に相当する仕組み?)やN-gramのデータが利用されているはずです。

このエントリで言いたかったこと まとめ

初めに紹介したWebmasterWorldのスレッドのきっかけとなった別のスレッドでフォーラム管理者は次のように言っています。

共起やフレーズインデックスをもう一度見直すべき時だと思う。また「1フレーズにつき1ページ」のアプローチを撤回するべき時かもしれない。「1フレーズにつき1ページ」がまもなく(あるいはすでに)、いくらか順位を下げる対象になってしまっているのではないかとまで考えている。それってeHowっぽい匂いがしないかい?

「1ページ1キーワード」というのは日本でもよく言われるSEOです(日本語では複数の単語でも「キーワード」と言いますが、意味的には複数語を表す「フレーズ」も含みます)。

今後はそうではなく、「1ページ1テーマ」のアプローチでコンテンツを書けということだと思います。
そのテーマについて書くのに、1つのキーワード(フレーズ)にだけ固執するのではなく、そのテーマを表現するのに使われうるキーワードたち、共起語や関連語を意識しなければならないということでしょう。

「キーワード出現率は◯%にする」なんていう大昔のSEOを信じている人は、僕のブログ読者にはよもや存在しないとは思いますが、それどころの話ではないですね。

「共起語や関連語を詰め込んで上位表示を狙え」ということを推奨したいわけではありません。
そうではなくて、これらが当然のように入り込んでくるような記事を書くライティング能力が、今後は被リンクとかアンカーテキストとかそういう操作される要素よりもずっとずっと重要になってくるのではないかということです。

リンクを買うお金があったら「書く力」のある人材を雇ったほうがいいかもね。w