[レベル: 上級]
Google は、これまでで最大かつ最先端の AI モデル「Gemini」を発表しました。
テキストや画像、音声、動画、その他の様式のデータを横断して理解し、操作できるように Gemini は構築されました。
ウルトラ、プロ、ナノの3つのサイズがあり、それぞれ異なるユースケースに最適化されています。
Gemini は、30 を超える学術的ベンチマークで最先端のパフォーマンスを達成し、言語理解タスクにおいては人間専門家を凌駕しています。
Gemini の注目点
Gemini の注目すべき点を簡潔にまとめます。
📝すずきメモ:日本語発音は「ジェミニ」が一般的だけれど、英語発音は「ジェミナイ」に近い
- Google によって構築された最大かつ最も能力のある AI モデル
- 最初のネイティブ マルチモーダル モデル – テキスト、画像、オーディオ、ビデオ、コードなどを理解し、推論することができる
- 異なるユースケースのための3つのモデル
- Ultra
- Pro
- Nano
- Ultra は GPT-4 よりも、Pro は GPT-3.5 よりも高性能
- 30 以上の学術ベンチマークで最先端のパフォーマンス
- 言語理解のベンチマークで人間の専門家を超える
- 大量のデータから洞察を抽出する
- 数学や物理学のような複雑なトピックの推論を説明する
- Python、Java などの言語で高品質のコードを生成する
- 包括的な安全評価が実施され、ベストプラクティスを定義するためのパートナーシップを結んでいる
- Gemini Pro を Google プロダクト全体に導入 – Bard、検索、広告、Chrome など
- Gemini Nano を Pixel 8 Pro に搭載 – レコーダーアプリの要約、Gboard のスマートリプライ、動画・画像のエンハンス
- 2024 年初頭に Ultra を使用した Bard Advanced をリリース予定
Gemini 搭載の Bard
Google の AI チャット、Bard にはすでに Gemoini Pro を LLM として使うようにバージョンアップしています。
日本を含む 170 以上の国でリリースされました。
ただし、対象になる言語は今のところ英語だけです。
Gemini モデルは従来のモデル (PaLM 2) よりも、たとえば、次のようなタスクにずっと秀でています。
- 理解
- 要約
- 推論
- コーディング
- プランニング
現在は、テキストだけでのやりとりで Genimi Pro が使われますが、画像などそのほかの様式にもまもなく適用されます。
さらに高性能な Gemini Ultra をモデルに採用した Bard Advanced を来年初頭にリリース予定です。
Gemini 版 Bard をさっそく使ってみました。
たくさん使ったわではないのですが、たしかに前よりも良い回答が返ってように感じました。
同じタスクをやらせても、前のバージョンは指示していない余計なことも実行することがよくあったのですが、それがなくなり指示を忠実に、しかよより良い結果で実行してくれています。
SGE にも Gemini
Gemini は検索にも採用されます。
SGE での試験が始まっています。
次のように Google は述べています。
Gemini の試験を検索ですでに開始しています。これによりユーザーのための Search Generative Experience (SGE) が速くなり、米国の英語での(スナップショット生成までの)待ち時間が 40% 削減されるとともに、品質も向上しています。
SGE はスナップショットが生成されるまでの待ち時間が長いのが問題の 1 つですが半分近くに短縮されるようです。
1 〜 2 秒くらいですかね?
📝すずきメモ:米国の英語の SGE を使ってみたところ、確かに今までよりも速くなっているように感じます(それでも一瞬で生成ということではなく待ちますが)
回答の品質も向上するとのことです。
ユーザー視点では嬉しいことですが、SGE で検索が完結してしまうなら、サイトへの検索トラフィック減少がますます不安になりますね。
ChatGPT が世に登場してから 1 年がたちました。
出遅れていた Google ですが、猛追しています。
Gemini が検索をどのように変革するのか注目しましょう。
【UPDATE (2023/12/7)】
Google Japan ブログでも発表されました。