Adobe Firefly、動画生成AIのパブリックベータ版を発表

アドビは、クリエイティブな生成AIモデルのファミリーである「Adobe Firefly web版」をリニューアルし、日本時間2月13日0時から利用可能とする。

アドビはFireflyを2023年3月21日にベータ版としてリリースし、そこからさまざまな進化を遂げてきた。2023年3月に最初のベータ版がリリースされて以来、Adobe Fireflyで生成された画像は180億以上に達している。

アドビが既にアナウンスしているものとして、「Adobe Firefly Image Model」「Adobe Firefly Vector Model」「Adobe Firefly Design Model」があり、そこからさらに動画へと対応を広げる「Adobe Firefly Video Model」を2024年10月14日にアナウンスしている。このビデオはさらに進化した形で提供される。

今回の発表で、動画生成がベータ版となる。これまでも限定的なベータ版としては公開していたが、ウェイティングリストに名前を登録しないとアクセス権がもらえなかった。2月13日からはパブリックベータとなり、誰でもアクセスできるようになる。

動画生成(ベータ版)の機能

Fireflyシリーズの一環であるVideo Modelは、当然ながら商用利用も可能。生成できる映像は、現時点では1080P、フルHDの解像度の動画生成の尺は5秒である。アスペクト比は16:9(横ワイドスクリーン)もしくは9:16(縦型)となる。

テキストプロンプトから画像や動画を生成するだけでなく、画像から動画を生成することも可能である。Web版からアクセスすることで、画像生成と動画生成の両方を行うことができる。

画像からシームレスに高品質なビデオクリップに変換

動画生成において、画像から動画を生成する際のコントロール機能の一つとして、キーフレーム的な指定が可能である。具体的には、開始点と終了点を意味する画像を2つ設定することで、その間を補完するような動画が生成される。

開始と終了のキーフレームを設定することで、動画制作のプロセスをスムーズに導くことが可能

動画生成の利用シーン

動画生成の利用シーンは多岐にわたる。以下に主な例を4つ挙げる。

・Bロール生成

画像から動画を生成し、Bロールを作成することができる。Bロールとは、動画制作において主要なシーンを補足説明する映像のことである。例えば、夜景のシーンであれば、その情景を詳しく描写するような映像がBロールとなる。もし撮影を忘れてしまった場合や、翌日までに映像を完成させる必要がある場合でも、写真があれば、あるいは写真自体を生成することで、Bロールを作成することが可能となる。

・2D/3Dアニメーション

実写的な映像だけでなく、2D、3D、コマ撮りといったアニメーションも制作できる。

・エフェクト映像生成

エフェクトに近い雰囲気を持つ映像を生成することができる。

・テキストグラフィック

テキストグラフィックにも活用できる。

これらの利用シーンに加え、カメラアングルやモーションズームなど、豊富なカメラコントロールも搭載されており、意図した通りの動画を生成することが可能である。スマートフォンからアクセスした場合でも、デスクトップ版と同等の機能がスマートフォンのWebブラウザ上で利用できる。

    テキスト
プロンプト:穏やかな波が岸に打ち寄せる夕暮れの静かなビーチが映っている。太陽が地平線に沈み、砂と海に暖かい色合いを投げかける様子が金色に輝く。頭上を飛ぶ数羽のカモメと、穏やかな海に浮かぶ遠くのヨットを入れ込み、平和で絵画のような雰囲気を演出
※画像をクリックして拡大
    テキスト
プロンプト穏すべてがシンプルなスタイルで描かれた2Dアニメ穏長いコートとブロンドの髪の少年が、月から別の惑星、さらに別の惑星へと飛び回る
※画像をクリックして拡大

Firefly Web版での動画生成手順

実際に動画生成の流れを紹介する。

下画面は新しいFirefly Web版のトップ画面である。従来はプロンプトからテキスト入力をすることで画像を生成することができたが、リニューアルによりプロンプトのモードを「画像」と「動画」から切り替えてスタートすることが可能になった。

プロンプトからスタートしなくても、タブで切り替えることも可能である。「おすすめ」「画像」「動画」「音声」「ベクター画像」などから選べる。今回は動画を生成するので、「動画」を選択して「テキストから動画生成」を選んで進む。

    テキスト
※画像をクリックして拡大

ここでは例として、テキストプロンプトに「嬉しそうに、微笑んでいる黒いフラットコーテッドレトリバー」という、フサフサの可愛い犬を動画生成するように指示を行った。

左側の「一般設定」には「縦横比」の設定があり、「ワイドスクリーン16:9」を設定する。「縦9:16」の設定も可能である。「フレーム毎秒」の設定は「24fps(デフォルト)」で、現時点では固定されている。

「カメラ」の「ショットサイズ」設定では、「寄り」なのか「引き」なのかを選択できる。「カメラアングル」は「空撮」や「下から見上げる」など、様々な角度から選択できる。「カメラの動き」は「ズームイン」や「ズームアウト」の設定が可能である。

    テキスト
※画像をクリックして拡大

一度で5秒の動画が生成される。

    テキスト
※画像をクリックして拡大

この設定から同じテキストプロンプトのまま、今度は「縦横比」を「縦(9:16)」、「ショットサイズ」を「ミディアムショット」、「カメラアングル」を「空撮」、「動き」を「右に移動」にして試してみる。テキストプロンプトは特に変更していない。

実際に生成されたものが下記の画像である。先ほどよりもカメラが少し引いており、カメラの移動によって動きが加わっている。このように、5秒の動画が生成された。

    テキスト
※画像をクリックして拡大

犬の例はテキストから画像を生成したものであったが、画像から動画を生成することも可能である。

動画を生成する際には、開始点と終了点の2つの画像を設定する。従来、エフェクトはプリセットをダウンロードするなど、各自で工夫して作成することが多かったが、Fireflyでは開始点と終了点を設定することで、パーティクルが動くようなエフェクト動画を容易に作成できる。

開始点の画像
※画像をクリックして拡大
終了点の画像
※画像をクリックして拡大

プロンプトは「パーティクル、アブストラクト、ループアニメーション効果、黒背景」である。結果は以下の通り。

開始点と終了点をきちんと自分で指定しているため、狙ったような結果が得られている。完成した動画はダウンロードを行い、Premiere Proなどの他のデザインツールで活用することが可能である。

    テキスト
※画像をクリックして拡大

音声と動画の翻訳

その他注目の機能としては、音声と動画の翻訳がある。これはビデオファイル、もしくはオーディオファイルをFireflyに渡すと、20カ国語以上で翻訳が可能である。もちろん商用利用も可能である。

使用されている言語は自動判別され、ユーザーが選んだ複数の言語への同時翻訳が可能である。エンタープライズ向けには、音声に合わせて口の動きも調整するリップシンク機能も追加される。

動画翻訳の流れは以下の通りである。音声と動画を他の言語に翻訳する。5分から10分程度の1つの言語の音声ファイルをアップロードする。アップロードされたファイルはFireflyで処理される。

    テキスト
※画像をクリックして拡大

これは架空の番組のデータであるが、このデータをドラッグ&ドロップして、まず解析を行う。この音声ファイルのオリジナルの言語は日本語であったため、Fireflyは日本語であると自動的に認識する。

    テキスト
※画像をクリックして拡大

実際に用意した英語版(オリジナルは日本語)の動画を再生する。他にも、中国語、イタリア語、韓国語の翻訳版も用意したので、以下に紹介する。

ご覧いただいたものは一括で設定されたものである。ドラッグ&ドロップでファイルを追加し、プルダウンメニューで選択可能な言語にチェックボックスでチェックを入れるだけで、翻訳処理が行われる。

    テキスト
※画像をクリックして拡大

あとは少し待つだけで、チェックした言語分が一気に翻訳される。国内のクリエイターが自分のコンテンツを海外に広めたいと考えた時に、この機能が役立つ。例えば、スペイン語、フランス語など、ヨーロッパを中心に世界中に自分の作品を知ってもらいたい場合、Fireflyを使えば簡単にコンテンツを多言語化できる。

    テキスト
※画像をクリックして拡大

アドビはテキストプロンプトから単に画像や動画を生成するだけでなく、クリエイティブAIコントロールにも重点を置いている。画像を指定したり、開始フレーム(開始点)と終了フレーム(キーフレーム)を指定したりすることが可能である。また、カメラの動きやアングルなども調整できる。

動画生成に加え、画像生成についても、画像の構図に沿った形やスタイルを参照する機能が既に公開されている。このように、クリエイターの制作を支援する様々なコントロール機能が搭載されている。

Firefly Web版は今回リニューアルされるが、ここで紹介しているいくつかの機能は、Photoshop、Illustrator、Premiere Proなどのデザインツールにも搭載される予定である。

IPフレンドリーで商業利用可能

最後に、アドビは特に商用利用にこだわって開発を進めている。10年以上にわたりAIに取り組んでおり、生成AI以前から様々な形でクリエイターの作業効率化にどう活かせるかを検討してきた。説明責任、透明性といった点を非常に重要視している。商用利用可能なものとするため、Adobe Stockなどのライセンスフリー素材を学習データとして使用し、高品質のデータを積極的に学習させることで、クオリティと商用利用の安全性を担保している。

有害性や偏ったバイアスのあるもの、例えば、特定の暴力的なコンテンツに関連するテキストプロンプトは排除しており、その辺りのコントロールも行っている。

また、フィードバック機能も搭載されており、ユーザーが「この結果はおかしいのではないか」と感じた場合には、アドビに報告できるようになっている。

さらに、コンテンツクレデンシャル機能も搭載されている。アドビはコンテンツオーセンティシティイニシアチブ(CAI)などの活動に深く関わっており、クリエイターが作成したデジタルコンテンツの悪用や無断使用を防ぐため、クリエイターの権利を守るためのコンテンツクレデンシャル(コンテンツ認証情報)を提供している。これは、誰がこの作品を作成したのか、このデジタルコンテンツはいつ作成されたのかといったデータをデジタルデータに紐づけるものである。

この活動を推進しており、従来は画像のみであったが、今後は動画にも出力時にコンテンツクレデンシャルを付加できるようにする取り組みを進めているとしている。