Knxwledgeと真鍋氏のスペシャルパフォーマンス実現

Blackmagic Designは、 2024年5月23日〜24日 、東京・下北沢のADRIFTにて映像と音楽を融合させた招待制イベント「Blackmagic Night」を開催した。

イベントのハイライトは、世界に誇るプロデューサー/ビートメーカーKnxwledge氏と話題のビジュアルを世界に発信するDaitoManabe氏のスペシャルセッションだ。Knxwledge氏のDJに合わせて、最先端のAI技術を駆使してリアルタイムにカメラの映像を何かに変換する表現は「驚き」の一言だった。あの夢の中のような映像はいったいどのようにして実現しているのか?真鍋大度氏に、Blackmagic Nightで披露したパフォーマンスの全貌を語っていただいた。

「Blackmagic Night」のリアルタイム生成AIの様子

――PRONEWSでのインタビューは、2020年のBlackmagic URSA Mini Pro 12Kを使った映像作品「S . P . A . C . E .」以来となります。その当時から今日にかけて、アーティストとしての表現手法に変化を感じていることはありますか?

真鍋氏:

生成AIの話題で言うと、まだ品質とトレードオフのところがありますけど処理の時間を必要としていた画像へのエフェクトがリアルタイムにできるようになりました。また、今までプロトタイプだったり、使おうと思ってもまだ本番では使えないと思っていた製品や技術が、使えるようになってきました。ただし、それは最終形ではない感じもしています。

――様々な活躍をされている真鍋さんの近況を教えてください。

真鍋氏:

僕個人の活動とライゾマティクスの活動の2つがあります。
ライゾマティクスの活動としては「AIと生成芸術」をテーマにした個展「Rhizomatiks Beyond Perception」を開催中です(会期:2024年6月29日〜10月14日)。既存の基盤モデルを一切使用せず、ゼロベースのフルスクラッチでAIのモデルを作って、「創造的思考プロセス」自体を作品化しました。
販売作品は、ライゾマティクス初の試みとなるAIモデルデータです。既存の基盤モデルを一切使用していません。私とライゾマが制作した108本の動画から抽出した17万枚の静止画のみを用いて、完全にゼロから学習しています。そこにはかなり自由度の高いライセンスもつけていまして、購入者はAIモデルデータ活用の絵葉書の販売など、幅広い目的で活用することも可能です。
個人の活動では、ライブの仕事が多いです。8月はモントリオールの「MUTEK Montreal 2024」でライブを行いました。オーディオ・ビジュアルのフィールドで、音楽と映像の両方作ってライブパフォーマンスやっています。そこでいろんな生成AIの映像や画像の制作を試しながらやっています。
あと、虎ノ門ヒルズ・TOKYO NODEで開催する展覧会「Perfume Disco-Graphy 25年の軌跡と奇跡」をクリエイティブディレクションを担当しました。僕はディレクターで入って、ライゾマティクスのメンバーが実装で入っている感じです。先日まで行われていたPerfumeのアジアツアー「Perfume "COD3 OF P3RFUM3 ZOZ5" Asia Tour 2024」では、彼女たちの映像制作や技術的なステージのサポートも手掛けました。

AIモデル生成平面作品 参考画像

――今回のBlackmagic Nightの参加は、音楽と映像の制作活動の1つですか?

真鍋氏:

そうですね。本当、Knxwledgeという尊敬するアーティストがいまして、彼とは前からDMのやり取りもよくしていました。「なにかできれば」と思っていたところ来日が決定しまして、「だったら日本で何かやらない?」というカタチが「Blackmagic Night」となり実現できました。
ただ、じっくりスタジオに入って1週間準備などはできません。何をやるかは現場入りするまで、決まっていませんでした(笑)。2人一緒にDJをやるのか、それとも自分は映像担当VJなのか、映像の準備をしつつ、バック・トゥ・バックもあるかもしれないことも想定しながら準備をしました。最終的には、KnxwledgeはDJ、僕は映像ということになりました。

真鍋氏:

最大の課題は、Knxwledgeの音楽システムと我々の生成AIを用いたビジュアルシステムをいかに正確に同期させるかということでした。この同期は、パフォーマンスの質と没入感に直接影響する重要な要素です。
2日間のライブで、我々は異なるアプローチを試みました。
初日は、Knxwledgeが「Serato DJ Pro」を使用しました。Serato DJ Proは主にDJプレイに特化したソフトウェアで、外部のビジュアルシステムとの直接的な同期機能は限られています。そのため、音と映像の信号による自動同期は行わず、完全にマニュアル操作に依存しました。具体的には、私がKnxwledgeのビートを聴きながら、生成AIのエフェクトパラメーターをリアルタイムで手動調整し、同期を取りました。これは非常に挑戦的なタスクで、高度な集中力と即応性が要求されました。
2日目は、Knxwledgeの提案により「Ableton Live」に切り替えました。Ableton Liveは、音楽制作やライブパフォーマンスに広く使用されるデジタル・オーディオ・ワークステーション(DAW)で、外部デバイスやソフトウェアとの同期機能が充実しています。特に、MIDIクロックやOSCプロトコルを介した外部システムとの連携が容易です。この変更により、音楽とビジュアルの同期が大幅に改善されました。
具体的には、Ableton Liveから送信されるテンポ情報やMIDIノート、さらにはオーディオ解析データを私のシステムが受け取り、それに基づいて生成AIのパラメーターをリアルタイムで調整することが可能になりました。これにより、音楽のビート、リズム変化、音色の変化などに、より正確にビジュアルを同期させることができました。
この経験から、ライブパフォーマンスにおける生成AIの利用には、柔軟性と即応性が重要であることが明確になりました。私は各日のために異なるソフトウェアソリューションを開発し、それぞれの状況に最適化しました。初日のマニュアル同期システムと2日目の自動同期システムは、それぞれ異なる技術的アプローチを必要としましたが、どちらも生成AIを用いたリアルタイムビジュアル生成の可能性と課題を浮き彫りにしました。

――ソフトを作って対応されたのですか?

真鍋氏:

はい、その通りです。既存のDJツールだけでは機能が限られるため、カスタムソリューションを開発しました。
システムの中核には、Cycling ’74の「MAX」を使用しています。MAXは視覚的プログラミング言語で、音楽やマルチメディアの制作に広く使われています。このMAXを介して、Knxwledgeのシステムから同期信号を受け取り、それをビジュアルエフェクトのコントロールに利用しています。
今回のビジュアルシステムは、主に2つの異なるアプローチを採用しました。一つ目がいわゆるVJ風の幾何学的ビジュアル。これは音楽のテンポや音の特徴に反応して変化する幾何学的な図形や効果を生成するシステムです。MAXを使用して、音楽の分析データをリアルタイムでNotchというビジュアル生成ソフトに送り、同期させています。
二つ目がオリジナルの生成AIシステムです。こちらはC++とPythonで開発した独自のソフトウェアです。BlackmagicのSDK(Software Development Kit)を利用して、ビデオ入力とリアルタイムの生成AIエフェクト処理を実装しました。

Intensity ProとBlackmagic SDKで解決する遅延の壁

――Intensity Proを選ばれた理由は何でしょうか?

真鍋氏:

Blackmagic Design社の「Intensity Pro」を選択した主な理由は複数あります。まず、Blackmagic DesignのSDK(Software Development Kit)が非常に充実しており使いやすいことが挙げられます。このSDKにより、開発者は低レベルのハードウェア制御から高度な映像処理まで、幅広い機能を自由にカスタマイズできます。具体的には、デバイスの列挙と選択、ビデオフォーマットの設定、フレームの取得とバッファ管理、ハードウェアレベルでの同期制御などの機能を直接制御できます。
次に、クリエイティブコーディングのコミュニティでBlackmagic製品が広く使用されているという点も重要です。これにより、多くの事例や解決策が共有されており、オープンソースのラッパーやツールが存在します。例えば、OpenFrameworksなどの創造的コーディングフレームワーク向けのアドオンがあります。また、問題解決のためのリソースが豊富に存在することも大きな利点です。
ステージパフォーマンスにおいて、映像の遅延は致命的な問題となりますが、Intensity Proはこの点でも優れています。ハードウェアレベルでの直接キャプチャをサポートし、DMA(Direct Memory Access)を利用した高速データ転送、専用のPCIeインターフェースによる高帯域幅通信を特徴としており、これらによりフレーム単位での遅延最小化が可能です。
SDKを利用することで、標準的なビデオキャプチャソフトウェアでは不可能な最適化も行えます。フレームバッファの直接操作、GPUとの効率的な連携(OpenGLやVulkanなどのグラフィックスAPIを介して)、リアルタイムプロセッシングパイプラインのカスタム実装などが可能です。
また、複数のカメラからの入力を効率的に扱える点も重要です。これにより、ソフトウェア側でのマルチカメラ切り替えや複数ソースの同時処理とブレンディングなどの高度な機能実装が可能になります。
プロフェッショナル向け製品であるため、長時間の連続使用や厳しい条件下でも安定した性能を発揮する点も選択理由の一つです。さらに、様々な解像度やフレームレート、色空間に対応しており、多様な入力ソースや出力要件に適応できる柔軟性も備えています。
これらの特徴を活かし、自作のC++ソフトウェアと組み合わせることで、1フレームレベルの遅延最小化を実現しました。具体的には、カスタムフレームバッファ管理、GPUを利用した並列処理、効率的なメモリ管理とデータフロー最適化などの技術を駆使し、生成AIの処理も含めた高度なリアルタイムビジュアル生成システムを構築しました。今回はKyleMcdonaldという凄腕のプログラマーがハードコアな部分を開発しています。

――生成AIはどのような原理で実現しているのでしょうか?

真鍋氏:

生成AIは様々な手法で実現されていますが、最近特に注目されているのは拡散モデル(Diffusion Model)という機械学習アルゴリズムです。これは画像生成だけでなく、テキスト生成やその他のモダリティにも応用されています。
拡散モデルの基本的な考え方は、データにノイズを徐々に加えていき、そのプロセスを逆に辿ることでデータを生成するというものです。具体的には、入力されたテキストプロンプトに基づいて、ランダムノイズから徐々に目的の画像を生成していきます。
今回のパフォーマンスでは、音楽に合わせてリアルタイムで画像生成のプロンプトを変更することが重要でした。例えば、「70年代ニューヨークのヒップホップシーン」といったテキストプロンプトを入力すると、AIがそのイメージに合った画像を生成します。このプロセスは従来のエフェクト処理とは根本的に異なり、AIが理解した概念に基づいて新しい画像を作り出すのです。
さらに、潜在空間(Latent Space)という概念も重要です。これは、AIが学習したデータの特徴を高次元の空間で表現したものです。この空間内で操作を行うことで、音量に反応して「猫が犬っぽくなる」といった複雑な変換も可能になります。
従来のビジュアルエフェクトは主に画像処理の技術を使用し、音量に応じて明るさ、色、サイズを変えるといった比較的単純な変換でした。一方、AIを用いたアプローチでは、音楽の特徴やムードに合わせて、全く新しい画像を生成したり、既存の画像を大幅に変換したりすることができます。これにより、音楽とビジュアルの融合がより創造的で予測不可能なものになります。
Knxwledgeの演奏中にリアルタイムでエフェクトを調整したのは、この新しいAIベースのアプローチの柔軟性を活かしたものです。事前に用意したプロンプトセットを基本としつつ、その場の雰囲気や音楽の展開に応じて即興的に新しいビジュアル要素を導入することができました。

「生成 AI」は映像業界に福音をもたらすのか?

――最後に「生成 AI」は映像業界のクリエイティブにどのような進化をもたらすでしょうか?

真鍋氏:

生成AIは映像業界に革命的な変化をもたらす可能性を秘めていますが、現状では技術的な課題と実用面での制約が存在します。
まず、リアルタイムエフェクトに関しては、現在の技術では高い計算コストと処理時間が必要なため、即時性と画質のトレードオフが避けられません。我々のパフォーマンスでは、低解像度でややノイズの多い映像を意図的に表現の一部として取り入れています。これは技術の制約を創造的に活用する一例です。しかし、高品質な映像をリアルタイムで生成するには、さらなる技術革新とハードウェアの進化が必要です。
一方、非リアルタイムの映像生成に関しては、急速な進歩が見られます。例えば、OpenAIの「SORA」、RunwayのGen-3など、静止画だけでなく動画を生成できるAIモデルが登場しています。これらは、テキストプロンプトから高品質な映像を生成したり、既存の映像を編集・拡張したりする能力を持っています。
これらの技術は、映像制作のワークフローを大きく変える可能性があります。例えば、プリビジュアライゼーションでアイデアを素早く視覚化し、制作前に概念を検証できます。また、複雑な背景やシーンを生成し、撮影や3DCGモデリングのコストを削減できる可能性があります。ポストプロダクションにおいても、映像の拡張、修正、スタイル変換などを効率的に行えるようになるでしょう。さらに、将来的には視聴者ごとにカスタマイズされた映像を生成する可能性も考えられます。
しかし、これらの技術を実際のプロダクションで使用する際には、いくつかの重要な課題があります。著作権と知的財産権の問題があり、AIモデルの学習データや生成された映像の著作権が不明確な場合があります。各国で法的解釈が異なる点も課題です。また、AIが生成した映像の品質や一貫性を保証することが難しい場合があり、品質管理の問題も存在します。さらに、ディープフェイクなどの悪用を防ぐためのエシカルな使用に関する対策が必要です。既存の映像制作プロセスをAI技術に適応させる必要もあり、ワークフローの再構築も課題となります。
したがって、生成AIは映像業界に大きな可能性をもたらす一方で、その導入には慎重なアプローチが必要です。特に商業プロジェクトでは、法的リスクや品質管理の観点から、まだ全面的な採用にはいたっていません。しかし、技術の進歩と共に、これらの課題は徐々に解決されていくと予想されます。
将来的には、生成AIがクリエイターの強力な道具となり、表現の可能性を大きく広げることが期待されます。同時に、人間のクリエイティビティとAIの能力を最適に組み合わせる新しい制作手法の開発が重要になるでしょう。これにより、映像業界はより創造的で効率的な未来へと進化していくことが期待されます。