過去1年間、OpenAI、Microsoft、Googleなどの間で繰り広げられている人工知能(AI)の戦いは、この分野を急速に変革しそれぞれが競い合いながら新しく、より強力なモデルを次々と発表しています。
GoogleはAI分野の先駆者ではありませんでしたが、現在では「Gemini」と呼ばれる、これまでで最も強力なAIモデルと噂されるものを開発しトップを目指しています。Geminiについては、プロジェクトが厳重な機密の下にあるため、公式にはほとんど情報がありません。
しかし、Techopediaというメディアは調査と分析を通じて、既に出ている情報の断片を組み合わせ、Geminiに関する包括的な全体像を構築することに成功しました。
これから紹介するがGeminiの機能、その強力さ、そして何ができるのか――今判明しているGeminiについての全てです。
2023年5月GoogleがGeminiの開発を発表
Googleは5月10日のGoogle I/O開発者会議でCEOのSundar PichaiによってGeminiを発表しました。このプロジェクトは、Google Brain TeamとDeepMindによって率いられ、PaLM 2に基づいています。
PaLM 2、またはPathways Language Model 2は、Google Cloud製品やサービス、Gmail、Google Workspace、PixelスマートフォンやNestサーモスタットなどのハードウェアデバイス、そしてもちろん有名なAIチャットボットBardなど、Googleの製品群全体のAI機能を推進するために使用される核心技術です。
2023年12月5日 Geminiの詳細を発表、間もなく利用可能に
Googleは5日(米国時間)、新たな大規模言語モデル(LLM)「Gemini」を発表するともに、Pixel 8 ProやAndroidに順次Geminiを導入することを発表しました。
Geminiでは、Ultra、Pro、Nanoという3つのサイズのLLM(大規模言語モデル)が用意されていますが、このうちスマートフォンなどには小規模だがデバイス上だけでAIの能力を引き出す「Gemini Nano」を導入していくようです。Googleの「Pixel 8 Pro」が初のGemini Nano搭載スマートフォンとして、5日からすぐに利用可能になります。
動画を観ると「AIではなく、裏で人間が見て即座に判断しているのではないか」と勘違いしてしまうレベルで、リアルタイムにユーザーが何を伝えようとしているのか判断し、ごく自然な会話ができていることが分かります。
・Open AIのChat GPT4/3.5と競合するLLMを発表
・「文字」に加え「画像」「音声」「動画」に対応
・Geminiには3種類 Ultra/Pro/Nanoがある
・Ultraは2024年の前半に登場。性能はGPT-4を超える
・Proは間もなくBardに搭載、法人向けにも提供開始、性能はGPT-3.5 Turboを超える
・NanoはPixel8 Proに搭載し端末上だけで動く
・Pixel8ではこれまでの文字起こしに加え要約ができる
・Gemini UltraはBard Advancedが提供開始される予定(Chat GPTの有料版であるPlus/GPT-4のような存在か?)
つまりまとめると、ChatGPT-4と同様に画像、音声、テキストのリクエストを同時に処理できるマルチモーダルにも対応し計画立案および問題解決が可能な高性能AIが近々利用可能になります。
Geminiはより人間的なAI
私たちはすでに多様な場面で機能するAIを目の当たりにしています。
OpenAIのChatGPTやMicrosoftなどの会社は、画像、テキスト、データ、さらにはコードを扱うことができるさまざまな生成AI技術を提供しています。しかし、これらの初期のAIシステムは、異なるコンテンツやデータ形式の統合が効率的でないため、多様なモード技術の表面をかすめているに過ぎません。
GoogleのGeminiは、人間が実際に行っていること、つまり多任務多様なモードAIに近づく新しいAIです。
複数のAIの組み合わせて作られた
効率的で洗練された多様なモードAIを作成する唯一の方法は、異なるAIモデルを一つに組み合わせることです。
グラフ処理、コンピュータビジョン、オーディオ処理、言語モデル、コーディングとプログラミング、3Dモデルなどの機械学習とAIモデルを統合し、調和させる必要があります。
GeminiはChatGPTよりも強力か?
GeminiとChatGPTを比較するとき、多くの専門家はパラメータについて話します。
AIシステムのパラメータはトレーニング段階で調整またはチューニングされる変数であり、AIが入力データを出力に変換するために使用します。一般的に、AIのパラメータが多ければ多いほど、高機能とされています。
ChatGPT 4.0は1.75兆のパラメータを持っていますが、Geminiはこの数を超えると報告されており、30兆、あるいは65兆のパラメータを持つと言われています。
AIシステムの能力は単にパラメータ数に比例するわけではありませんが、少なくとも大きな要素であることは確かです。
まとめ
ChatGPTなど次々に生成AIが発表され大いに盛り上がった2023年でしたが、2024年はこのGeminiを筆頭にAIのさらなる進化に期待が持てそうです。