株式会社AIdeaLabは、日本語と英語の文章が直接入力可能な動画生成AI基盤モデル「AIdeaLab VideoJP」をフルスクラッチで開発し、日本初の商用利用可能な日本語動画生成AI基盤モデルとして無償公開した。
AIdeaLab VideoJPは学習に対する透明性が高く、著作権やライセンスに配慮して「フルスクラッチで」(0から)動画を学習している。
- AIdeaLab VideoJPを無料で利用: https://huggingface.co/spaces/aidealab/AIdeaLab-VideoJP
- AIdeaLab VideoJPを無料ダウンロード: https://huggingface.co/aidealab/AIdeaLab-VideoJP
なお、AIdeaLab VideoJPは、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する、国内の生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」の成果をもとに作成された。
AIdeaLab VideoJPの特徴
日本語と英語の文章がそのまま通じるモデル
AIdeaLab VideoJPでは、日本語を日本人の話す感覚と近い形で処理し、動画を生成できるようにした。具体的には入力テキストを処理する技術を大規模言語モデル(LLM)である「llm-jp-3-1.8b」にした。
以下の動画は、
チューリップや菜の花、色とりどりの花が果てしなく続く畑を埋め尽くし、まるでパッチワークのようにカラフルに彩る。朝の柔らかな光が花びらを透かし、淡いグラデーションが映える。風に揺れる花々をスローモーションで捉え、花びらが優雅に舞う姿を映画のような演出で撮影。背景には遠くに連なる山並みや青い空、浮かぶ白い雲が立体感を引き立てる。
なお、日本語だけでなく、英語も通じる。むしろ、英語の方が通じるため、時には英語で生成するのもよいとしている。
学習に対して許諾が得られている動画を原則使用
機械学習する際に著作物の改変が発生しうると仮定すると、著作権者にとって勝手に改変されたり、勝手に改変されたものを販売されたりするのは好ましくないだろう。そこで、同モデルでは、次の条件を満たす動画のみを機械学習に使用したという。
- 動画は改変が許されるライセンスである
- 動画は改変しても商用利用可能である
- 動画はライセンスを変更しても良い
この3つの条件を満たすライセンスの動画は、主にCC-BY-4.0、CC-0になる。したがって、学習用動画は原則これらのライセンスに従う動画を用いた。具体的には次の学習用データセットに含まれる動画のみを使用した。
前者に関してはPixabayの動画のみを使用。これらのデータセットに含まれる動画のみを使っているため、学習動画に対する透明性は限りなく高いとしている。もし問題のある動画を見つけたら報告することで今後の開発に役立てるとしている。
モデルのライセンスは定番のApache-2.0
AIdeaLab VideoJPは、ライセンス選定において、シンプルさと使いやすさを重視し、オープンソースソフトウェアの分野で広く採用されているApache License 2.0を選択した。同ライセンスには表現に関する制限条項は一切含まれておらず、開発チームは表現の自由を最大限に尊重する方針を打ち出している。
一方で、偽情報や誤情報の拡散といった犯罪につながる可能性のある使用方法については、一切推奨しないとの立場を明確にしており、法令に従った利用を呼びかけている。
最先端の技術を利用し、家庭でも動く推論速度の早さを実現
最新のRectified Flow Transformerアルゴリズムを採用し、高速な推論速度を実現。フローマッチングは動画生成AI、メタ社のMeta Movie Gen、テンセント社のHunyuanVideoなどで利用されている。フローマッチングの中でもRectified Flow Transformerは、規模によっては家庭のGPUでも動作する。AIdeaLab VideoJPでは最小14GBのVRAMを搭載したGPUがあれば利用できる。
開発チームは今後、AIdeaLab VideoJPをベースにさらに高品質な動画生成モデルの開発を進めていく方針。また、アニメ制作向けの専用モデルの開発も計画している。