東映ツークン研究所リアルタイム合成システム「LiveZ」視察。モーショントラックとディープラーニングで生み出す未来

2021.04.13

txt：小林基己　構成･写真･動画：編集部

背景不要なシステムリアルタイム合成システムを実現

名前が示す通り東映ツークン研究所は、東映大泉撮影所内に作られた東映デジタルセンターの最新撮影技術を探求している研究機関だ。モーションキャプチャー、フェイシャルキャプチャーやバーチャルステージの設計なども行っている。今回はバーチャルスタジオの特集ということでツークン研究所が今開発している「LiveZ」（ライブズ）を紹介してもらった。

伺ったスタジオは、天井の高い10m四方ほどの空間にトラスが組まれモーションキャプチャー用のVICONが数多く配置されている。よく見るとVIVEのベースステーションも四方に配置されており、カメラのトラッキングはこのどちらかなのでは？と想像していたところ、予想を裏切るかのように、カメラトラッキングに関してはカメラ横に付けられた小さなインテルのRealSenseを使用していた。実はこれが、このシステムの可能性を広げていることがしだいに分かってきた。

ツークン研究所のモーションキャプチャースタジオではVICONが稼働。しかし、光学式は精度に優れているが、ロケ運用だと難しい。RealSenseはカメラに搭載できるほど小型で汎用性が高く、スピード感が特徴とのこと

そして、もう一つ驚きは背景がグリーンバックでもLEDスクリーンでもなく、スタジオの壁そのままであることだ。ここで実際にデモ映像も撮られている。これらからこの画期的なシステムを垣間見ることができる。

前半は仕上がりのムービーで後半はその撮影風景と技術の紹介になっている。前述のとおり、グリーンバックなどのアルファチャンネル作成のための背景が全く用意されていないことは驚きだ。それにも関わらずカメラは縦横無尽に被写体の周りを回り込みながら撮影をし、背景は目まぐるしく変わっていくのだ。その謎はムービーの後半になって解明される。

AIを使ったディープラーニングで「人」と認識できる部分の輪郭をAIがなぞってくれているのである。これが事実だとしたら合成撮影の自由度が格段に上がる！と勢い勇んで、バーチャルプロダクションにハマっているHiguchinsky監督を誘ってPRONEWSと共に東映大泉撮影所に足を運んだ。

アルファチャンネルの作成にAIを使用

撮影所の中の奥に位置するツークン研究所に向かうと、広いスペースにVIVE TrackerのテストをしているチームとLiveZのチームが場所をシェアしていた。DJI RS2に乗ったα7S IIIには横にちょこんとインテルのRealSenseのセンサーが取り付けられていた。RealSenseと聞くと奥行情報を収録するデプスカメラ（D455やD435）を想像するかもしれないが、これはトラッキングカメラ（T265）である。二つの魚眼レンズのカメラおよび加速度センサー・ジャイロセンサーによって、精度の高い位置情報が得られる。

特定のマーカーがあれば精度は上がるが、動きを認識しやすい背景であれば問題ない。これらの理由から苦手とするのは全てがグリーンバックになっている場合や白ホリスタジオだ。Realsenseの向きはカメラの向きと同じである必要はなく、今回もカメラの横に90°横向きで取り付けられていた。そうすることで合成幕を使用した撮影にも被写体の動きに惑わされずにトラッキングすることができる。

この位置情報がPCに送られてUnreal Engine上で背景の動きと連動する。ここに関しては多くのバーチャルプロダクションシステムと同じで、Unreal Engine基幹システムとして、自由度の高さがうかがわれる。撮影現場でリアルタイムに合成された映像出力できる。

取材当日は、オフィス街や東映ならではの京都太秦のセットも見せてもらった。被写体よりも近い物体に関しては前景に合成されたりと太秦のスタジオ内に立つ気分を味あわせてもらった。

そして、このシステムが他と一線を画する部分は、アルファチャンネルの作成にAIを用いていることである。ハリウッド映画でエンドクレジットでロトスコープと書かれた項目に並んでいる名前は日々マスク切りに精進している人々であるが、人海戦術も次第にAIへと置き換わりつつある。

日本でも使われることあるがコストがかかりすぎるため、なかなかグリーンバックに置き換わることがない。それをAIがやってくれるというわけだから歓迎しないわけにはいかない。身近なところではリモート会議などに使われるバーチャル背景のマスクがこれと同じ方法を用いている。

実際、LiveZの撮影時のリアルタイムマスク抜きだとZoomなどのバーチャル背景と同じレベルのマスクエッジだ。それを撮影後のポストプロダクションの段階でマスク作成の精度を上げていく。これにもAIの技術が用いられ、被写体と同じ映像を数多く認識させることによって、人か、それ以外か、の判断をワークステーションに委ねていくことになる。これは処理に時間がかかるが、ワークステーションが自動的に処理してくれる。それ以上の完成度が求められる場合はアプリケーションの調整をしながら、時には人が修正を行うことで精度を上げていく。

東映だと特撮ヒーローものを思い浮かべる人も多いのではだろうか。そういったフルマスクを付けた被写体は人と認識しにくいので、新たにそのキャラクターの画像を用いてAIを学習させることで識別の精度を上げることもできる。手にしている持ち道具に関しても同様だ。

だからこそAIも経験を積むことによって、作業効率も上がっていくのだが、それに伴ってHDから4Kへと要求されるハードルも上がってくるので汎用レベルに達するのは容易なことではない。

ただ、LiveZが他のバーチャルシステムに比べて利点があるとするならロケに持ち出せるということだろう。LiveZで採用されているRealSenseは他の位置センサーに比べてマーカーなどを設置する必要がなく単体で動作する。しかもグリーンバックなどを設置する必要もない。また、精度が要求される場合はViconでのトラッキングやUltimatteを用いたグリーンバックの撮影など、用途に応じて自由に切り替えられる構成になっている。

ただ、AIのマスク精度は万能とは言えない部分もある。実際のロケーションの映像も活かしつつ、手前の背景の延長線上に架空の街並みを合成したり、見せたくないものを消すときにも人物が被っていたとしてもマスクをAIに切ってもらうことで作業を軽くすることができる。完全に被写体だけを抜き出すなら合成幕が良いだろうが、ロケーション撮影に＋αの要素を加える方法としては準備と事後処理を考えてもLiveZは力を発揮してくれるに違いない。

txt：小林基己　構成･写真･動画：編集部

小林基己
MVの撮影監督としてキャリアをスタートし、スピッツ、ウルフルズ、椎名林檎、リップスライム、SEKAI NO OWARI、欅坂46、などを手掛ける。映画「夜のピクニック」「パンドラの匣」他、ドラマ「素敵な選TAXI」他、2017年NHK紅白歌合戦のグランドオープニングの撮影などジャンルを超えて活躍。noteで不定期にコラム掲載。

◀︎Vol.04 [Virtual Production] Vol.06▶︎