Google画像検索の画像認識はまだまだ不完全、リンゴ🍎とバナナ🍌を区別できるくらい

[レベル: 上級]

画像認識の技術を Google は画像検索に用いていますが、完成度はまだ決して高くないようです。

Search Off the Record ポッドキャストのエピソード 10 で、Gary Illyes(ゲイリー・イリェーシュ)氏が、画像インデックスの処理について説明したなかで言及しました。

画像インデックスのプロセス

大まかに言うと、次のようなプロセスで画像はインデックス処理されるそうです。

  • コンテンツ変換(インデックスできる形式に変える)の際に、基本的には画像タグを抽出する。あわせてほかのデータからも情報を取得する。
  • その画像がある URL を特殊な画像インデクサーに送る
  • 画像認識・解析が実行される

最後の画像認識・解析については深く考えてはいけないようです。
完璧とは言い難く、目指すべきレベルにはまだ到達できていません。
リンゴとバナナくらいは区別できますが、ペンとチーズ、パルメザンチーズ 普通のチーズとアッペンツェラー、パルメザンは区別できないだろうとのことです。
※すずき注: この例えがよくわかりません。普通のチーズ (cheese) とパルメザンチーズ(parmigiano)の区別ができないということ? これはまぁわかるとして、ペン (pencil) とチーズの区別くらいは付くように思うのですが……。ゲイリーに聞いておきます。
【UPDATE (2020/12/4)】
“a pencil” と聞こえるしトランスクリプションにもそう書かれているのですが、実際には “Appenzell” だそうです。ゲイリーに確認しました。ペンとチーズはさすがに問題なく区別できるよと言ってました。

ゲイリーは言葉には出していませんが、当然のことながら画像認識には人工知能/機械学習を用いているはずです。
Google の画像認識はかなり進んでいるはずなのですが(たとえば、Google フォト内での検索で体感できる)、画像検索に関してはまだまだといったところのようです。

画像認識にはテキスト情報が依然として必要

そんなわけで依然として、次のような情報、特にテキストでの情報が Google には欠かせません。

  • alt 属性
  • 画像のキャプション
  • 画像サイトマップ
  • 構造化データ

さらに、画像認識を手助けするなら高解像度の画像を利用したほうがよさそうです。

画像検索のベストプラクティスは検索セントラルの上級者向け SEOのセクションが詳しく解説しています。