Vol.03 CGの祭典SIGGRAPH2021開催!映像制作が変わる新しいCG技術[SIGGRAPH2021]

SIGGRAPH 2021で発表された、近い将来の活用を期待されるテクノロジー

SIGGRAPHはコンピュータグラッフィクス関連技術の学会であり、世界中の研究者から最先端の研究が発表される場である。また、SIGGRAPHはCG/VFX産業との関係性が深く、ハリウッド映画で使われた最新のテクノロジーが論文やセッションで発表されたり、SIGGRAPHで発表された新技術が、翌年には一般的に使われている映像編集ツールの新機能として搭載されていたりする。

人材の交流も盛んで、大学組織に所属するアカデミックな研究者がAdobeの研究開発部門に入ったり、ILMなどのCGプロダクションでの研究開発に携わることも少なくない。普通は研究の論文発表の後、実用化と考えられるが、Googleの研究者が最新のスマートフォンに搭載された新機能をそのスマートフォンが市場に販売開始されてからSIGGRAPHで論文発表するという事例もある。こういったニーズ(求める技術)とシーズ(提供できる技術)のバランスを重視した、技術と人材の流動性が現在のCG技術の発展を支えているとも言える。

そんなSIGGRAPHの発表から、近い将来映像制作やツールに影響を与えると考えられる先進的な研究をいくつか紹介する。

SIGGRAPH 2021から映像系の研究をピックアップ

Endless Loops: Detecting and Animating Periodic Patterns in Still Images
(無限ループ動画:静止画からの周期的パターンを検出しアニメーション化する手法)

    テキスト
論文より引用※画像をクリックして拡大

この研究は、すでにiPhone/Androidスマートフォン用アプリとしてリリースされているMotion Loopの中で使われているテクノロジーを論文発表したもの。Motion Loopは「シネマグラフ」と呼ばれる、画像全体は静止画だが一部分だけが動画のように動いている情緒的で不思議なデジタルコンテンツを提供するものだ。

静止画の写真素材から周期的なパターンを自動検知し、その部分をループ動画として合成、独特の「シネマグラフ」を生成する。まるで時を切り取ったかのような動画コンテンツを生成されることができる。Motion Loopアプリで、専門の動画編集ツールでなければできなかったようなプロレベルの映像を平易に作れることが人気を博している理由だそう。

Selective Region-based Photo Color Adjustment for Graphic Designs
(グラフィックデザインのための選択可能な領域ごとに扱える写真の色調整手法)

論文より引用

元となる写真と、目的の色合いを入力すると、一部の色が差し替えられて、雰囲気のある写真に修正することができる。個別に指定せずとも、自動的に領域を検知して差し替えられるので簡単で便利。カタログや商材写真などで雰囲気を合わせたい時や、思ったような色の素材写真が撮れていないような時の修正にもってこいの技術。雑誌の紙面や商材写真などにも応用がきく。

Editable Free-Viewpoint Video Using a Layered Neural Representation
(階層状の表現手法を用いた編集可能な自由視点映像)

    テキスト
※画像をクリックして拡大

180°に配置した16台のカメラで撮影した動画から自由視点の映像を生成し、撮影後にカメラ視点を変更可能な技術。サイズや位置を自在に扱える人物合成や、スポーツ中継のカメラ視点移動などに適している。演者が演出上意図していない立ち位置だった場合にも、後から配置を変更できる自由度がカメラ担当や編集担当にとってありがたい新技術だ。

Coarse-to-fine: Facial Structure Editing of Portrait Images via Latent Space Classifications
(潜在的空間分類法によるポートレート画像の顔構造の編集)

たいそうなタイトルのついた研究だが、簡単に紹介すると「二重アゴ除去」だ。顔の構造を考慮した上で顔写真をシュッとした見栄えに自動修正できる技術。例えば二重アゴや、タプタプした頬、エラの張った顎など、セルフィーであれば避けたい状況を緩和することができる。

ROSEFusion: Random Optimization for Online Dense Reconstruction Under Fast Camera Motion
(高速に移動する深度カメラにおける高精細な空間データの最適化)

    テキスト
※画像をクリックして拡大

撮影の現場ではまだまだニーズは少ないかもしれないが、大量の写真から3D形状を再構成するフォトグラメトリや、スマートフォンに搭載された奥行き情報を取得できる深度センサーつきカメラを活用した撮影も増えてきた。

本研究では、通常の撮影以上にブレがシビアに問われる深度センサーつきカメラ撮影されたデータにブレやノイズがあった場合、それらを適切に除去する手法を提示している。この技術が実用化すれば、撮影時のセットを短時間で撮影し映像として再構成する可能性が期待される。

Vid2Player: Controllable Video Sprites That Behave and Appear Like Professional Tennis Players
(ビデオ映像を、そこに写っているテニス選手のように取り扱う方法)

テニスの試合の録画映像をもとに、必要な部分に着目して繰り返したり、ボールの動きや選手の動きをコントロールして違う選手同士で対戦しているような映像を合成することができる。映像の再生というよりも人の動きの再生というアプローチで、スポーツのトレーニングや教本として映像を制御し活用するための手法。歴史上あり得なかった名選手同士の対戦を可能にする、リアルなスポーツ対戦ゲームにも応用が可能かもしれない。

Video Recoloring via Spatial-temporal Geometric Palettes
(時空間幾何学的カラーパレットによるビデオ映像への再着色)

    テキスト
※画像をクリックして拡大

ビデオ映像のショットごとではなく映像全体からカラーパレットを抽出し、適切な色調整を可能とする技術。1フレーム単位の色合いではなく時間軸方向に解析することにより、撮影シーンに合った汎用性が高く、調整しやすいカラーパレットが抽出される。

この研究の実用化によって経験を積んだプロでなければ扱えなかったカラーコレクションや、カラーグレーディングの作業がより平易に扱えるようになる。また過度な色調調整の結果、映像が破綻せずに違和感のない色調整が可能となる。

FovVideoVDP: A Visible Difference Predictor for Wide
(様々なディスプレイに表示された映像を、人間の目の特性に応じて評価する手法)

本研究は、映像に映っているものの精細度を評価するための仕組みである。撮影映像にありがちなブレや、ノイズ、ちらつきなどを、単なるデジタルデータとしてではなく、人間の知覚に基づいた評価を行うための指標を示したもの。この研究の背景にあるのは、良い映像の評価が経験を持つ専門家に依存している部分を、機械的に評価しつつも、単なる数値データとして評価するのではなく、人による評価から属人性を排除できる方法を模索しているところである。

特にこの研究では、眼球とデジタルディスプレイの大きさや距離、解像度を加味した上で評価でき、評価スピードや応用範囲が広いことがポイントだ。また同じ解像度、同じスペックだったとしても、スマートフォンの表示装置や、VRで利用するヘッドマウントディスプレイでは評価点が異なり、本研究では多くの表示デバイスを考慮している。

PhotoApp: Photorealistic Appearance Editing of Head Portraits
(頭部のポートレート写真の写真的な編集手法)

    テキスト
※画像をクリックして拡大

PhotoAppは、証明写真のような頭部の顔写真を素材とし、顔の向きや、照明の当たり具合、背景のボケ具合などを適切に調整するための技術。元となっているのは、あらかじめ撮影済みの150種類の照明条件で撮影された300人分8方向からの顔データから再構成されたものであり、単なる写真加工ではなく人工知能によって再構成されている。若干力技ではあるが、これによって通常は難しい再照明と撮影方向の変更の両方を実現している。

Total Relighting: Learning to Relight Portraits for Background Replacement
(ポートレート写真の背景を入れ替え、再照明を実現する手法)

1枚のポートレート写真を素材とし、自由に背景を差し替えるとともに自由な再照明を可能とする技術。グリーンバックなどの特殊な環境無しで、人物の背景に映っている景色を差し替えることができる。本研究はグーグルの研究部門によるもので、最新のスマートフォンで使われることが想定されている。一般的なCG研究と少し異なる点は、非力なコンピュータ環境においても素早く実行できる点に主眼が置かれているところ。

Iterative Text-based Editing of Talking-heads Using Neural Retargeting
(画面に登場する話し手の会話を文字から編集する手法)

    テキスト
※画像をクリックして拡大

人が喋っている動画を、喋っているセリフを文字として再編集し、その再編集の構成に応じて映像を自動生成する手法。従来も似たようなことができていたが、本研究では精度が高く、実用的なレベルとなっている。ポイントは、編集によって発生する違和感の元となる動きの除去や、話している途中の、ちょっとした仕草を挿入する点だ。編集元となる素材動画が2〜3分あれば良いという、素材が短くて済むのも本研究の特徴のひとつ。

映像系で話題となった今年の論文傾向

以上。今年のSIGGRAPH 2021より、映像系で話題となった論文をいくつか紹介した。全体としての印象は、人工知能技術を活用したものが多くなってきていること、GoogleやAdobeなど、企業に所属する研究者からの発表が目立ってきたことがあげられる。

また従来経験を積んだプロフェッショナルしか持ち得ていなかった鑑識眼や撮影・編集・合成のテクニックを、テクノロジーによって一般に平易に使えるようになってきていることが強く感じられる。だからといってすぐに「人工知能に仕事が奪われる」とはならない。今後は映像のプロの仕事がツールによって楽になり、プロフェッショナルとして力を入れたい専門性・独自性のある部分に時間や手間をかけていくという流れになることが考えられる。

続くレポートでは、SIGGRAPH 2021全体を振り返り、注目の話題のまとめをお届けする予定だ。


Vol.02 [SIGGRAPH2021] Vol.04