260520_GeminiOmni_toprNg1f3Iv

Googleは、高い推論能力と創造性を兼ね備えた新しいマルチモーダルモデルファミリー「Gemini Omni」を発表した。あらゆるインプットからあらゆるコンテンツを生成できるモデルである。

画像、音声、動画、テキストを自由に組み合わせて入力し、Geminiが持つ現実世界の知識に基づいたハイクオリティな動画を生成することができる。また、まるで会話をするように簡単に動画を編集することも可能だ。

Gemini Omniファミリーの第一弾として、Gemini Omni FlashをGeminiアプリ、Google Flow、そして YouTube Shortsで順次提供を開始する。今後、画像や音声といった出力形式にも対応予定だ。

さらに、数週間以内には API を通じてデベロッパーや企業向けにも提供を開始する予定だ。

話すだけで簡単に動画編集

Gemini Omniは、自然言語だけで、より直感的に動画を編集できる。すべてのプロンプトが前の文脈を引き継ぐため、登場キャラクターの見た目や特徴は一貫して保たれ、物理法則も崩れず、シーン全体の流れもしっかりと記憶される。

一から世界を創りだす

特定の部分を変更することも、すべてを作り変えることも可能だ。自分で撮影するのが難しかったような映像も、撮影した動画を初めから全く新しい作品に変えることができる。

260520_GeminiOmni_01JJJGqash
プロンプト:泡のアート作品を作って。

続きを再構築する

Gemini Omni では、自分で撮影した動画をベースに「そこで何が起きているか」を自由に変更や追加ができる。キャラクターの動きを編集したり、新しいキャラクターやオブジェクトを追加したり、ある一瞬を思いがけない展開へと変貌させることができる。

260520_GeminiOmni_02wdVBQ6m2
プロンプト:人が鏡に触れると、鏡面は液体のように美しく波紋を広げ、その人の腕は光を反射する鏡の素材へと変化していく。

やり取りしながらより良い作品に

元のシーンの文脈を失うことなく、背景環境、カメラアングル、スタイル、さらには細かなディテールまで調整が可能だ。

Geminiの世界知識に基づき、アイデアを形にする

Gemini Omni は、単にリアルに見えるシーンを作るだけでなく、「次に何が起こるか」を論理的に推論する。物理法則に対する直感的な理解と、Geminiが持つ歴史、科学、文化的な背景知識を組み合わせることで、単なる写真のような美しさを超えた、意味のある物語が可能になる。

より正確な物理法則を取り入れたビジュアル生成

Gemini Omni は、重力、運動エネルギー、流体力学といった物理に対する理解が向上している。これにより、水や物の動きがより自然で、リアリティ溢れるシーンを創り出すことができる。

知識とクリエイティビティ

Gemini Omni は Gemini の知識を活用し、単なるパターンマッチングを超え、言葉、映像、あるいはその意味を結びつける。

複雑なアイデアの視覚化

短いプロンプトだけで、Gemini Omniが説得力のある解説動画を作成できる。難解で複雑なアイデアをわかりやすく噛み砕いたビジュアルを生成してくれる。

260520_GeminiOmni_03scjIlN3H
プロンプト:タンパク質の折りたたみを解説するクレイアニメ。正確な描写。

あらゆる入力を組み合わせて動画を生成する

リファレンスへの対応

Gemini Omni は、画像、テキスト、動画、音声など、どんなフォーマットからでも、それらを組み合わせた1つの動画作品をつくりあげる。

260520_GeminiOmni_04xO0dkoxV
プロンプト:image_0.png をベースにしたSF映画スタイルの動画。audio_0.wav のリズムに合わせて、video_0.mp4 と同じように要素が光り出す。

手元にある素材から始める

入力リファレンス機能を使うことで、お気に入りのキャラクターの画像や背景シーン、手書きのスケッチなどを活用し、自身の思い描くビジョンに完全に一致する作品を創り出すことができる。

スタイル、モーション、エフェクトの適用

入力リファレンスを使って視覚的な表現を定義することも、自然な言葉で説明するだけでも構わない。Gemini Omniがそれらの要素を組み合わせ、まとまりのある1つのクリップを生成する。

デジタルアバターを使った動画作成

責任あるAIの開発として、自身の声を使って動画を作成できるアバター機能を提供する。これにより、自身のデジタルバージョンを作成し、見た目も声も自分そっくりの動画を生成できるようになる。なお、動画内の音声や会話を編集・変更する機能については、慎重にテストと評価を重ねている。

Gemini Omni で作成されたすべての動画には、電子透かし技術 SynthID が埋め込まれる。生成されたものかどうかは、Geminiアプリなどを通じて簡単に確認することが可能だ。