[レベル: 上級]
Googleは、GPT-4 のような高度なテキスト生成機能と、テキストプロンプトから画像を生成する機能を組み合わせた、Gemini と呼ばれる新しい AI システムを開発しています。
The Information が報じています。
画像生成も可能な Gemini
Gemini は、GPT-4 のような LLM のテキスト生成能力に加えて、Midjourney や Stable Diffusion のようなテキストから画像を生成するイメージ生成能力も備えるように開発されています。
イメージ生成はこれまで明らかにされていませんでした。
また、Gemini を用いて、グラフや図表の解析、テキスト記述からのグラフィックス作成、テキストや音声コマンドでのソフトウェア制御などの機能を提供することも検討されています。
YouTube で学習
Google は、YouTube 動画のトランスクリプトの大規模データで Gemini を訓練しています。
また Gemini モデル自体にビデオとオーディオを統合し、マルチモーダル機能を与えることもできます。
YouTube 動画で訓練されたモデルは、たとえば、動画に基づいて自動車整備士が車の修理の診断するのを手助けしたり、作成したいウェブサイトやアプリのスケッチに基づいてソフトウェアコードを生成したりできるそうです。
さらには、ユーザーの説明に基づいて詳細なビデオを自動生成する、テキストから動画を生成するより高度なソフトウェアを Google が開発することにも役立つ可能性を秘めています。
Gemini を利用するプロダクト
Geminiは、チャットボットの Bard や、Google ドキュメント/スライドなどのエンタープライズアプリ、および Google Cloud を通じて提供される計画です。
📝すずき補足:検索との統合に関しては、記事中では言及なし
2023 年後半にリリース予定
開発者に向けた Gemini のリリースは今年後半を予定しています。
しかし、それよりも前に何らかのプロダクトで使われる可能性もあるのとのことです。
Google Brain と DeepMind の統合
これまでは独立して運営されてきた Google Brain と DeepMind のチームを統合して Gemini は開発されました。
Google Brain と DeepMind の統合は、一部のエンジニアを驚かせましたが、Google が再び AI の最先端に立とうと決意していることを示しています。
Gemini は、Bard を動かしている LaMDA や PaLM など、過去のGoogleモデルに続くものです。
しかし、ChatGPT との比較で Bard の制限は、OpenAI のようなライバルに Google が遅れを取っていることを示唆しました。
Geminiは、会話方 AI などの分野で Google が追いつくことを目的としているそうです。
今後全容が明らかになっていくでしょう。
続報が入ったら共有します。