txt:江口靖二 構成:編集部

カンファレンス、セッションからみる現状と近未来

IBC2019ではブロックチェーンと同様に、AIや機械学習(マシンラーニング、ML)に関するカンファレンスも多数開催された。これらはAIやMLを利用してメディアとエンターテイメント(M&E)のバリューチェーン全体でプロセスを自動化し、エンゲージメントを促進し、新しい収益化の機会を作り出すといったテーマのセッションが相当数あった。これらを時間が許す限り、10本ほど参加して見えてきた現状と近未来をまとめてみたい。

まず、IBCでの300本を超えるカンファレンス、セッションの中で、サマリーとタイトルで判断する限り、AIをテーマにしたものが30本も開催された。これらはAIとMLと深層学習(ディープラーニング、DL)の違いのような基本的なものから、メディアやエンターテインメント業界の上流から下流、つまり制作から配信までの各プロセスごとに解説するもの、制作過程に特化したもの、ユーザー側の体験に関するものなど幅広い。

そもそも画像というデータはAIに向いている。一言で言えば、人間の眼と同じく、そこに何が写っているかを検出することがAIは得意である。この検出ができれば、それを応用して様々な利用が可能になる。道路にカメラを設置して人間と車をカウントすると交通量計測業務を自動化できる、映画作品の出演者をリストアップする、というような話である。

AIやMLによる現在のM&Eのオートメーション(自動化)の実現状況に整理は次のとおりだ。

  • コンテンツの検出と識別
    これは一般的な技術利用の概念
  • メタデータ精度の強化
    これまでは手動で作成されてきたコンテンツメタデータの自動生成
  • 異常検出
    ノイズなどの技術的な不都合と、暴力や猥褻などの内容的な問題の検出
  • 広告の検出と挿入
    業務的な広告素材のインジェストや差し替え
  • 要約とハイライトの生成
    広義でのメタデータやレコメンドへの応用
  • サムネイルの選択と生成

などで利用が始まっている。上位のものほど浸透している傾向がある。特にメタデータの生成に関しては、まだ正確さに欠ける部分もあるが、映画などの出演者検出のような限定的な用途であれば実用レベルに達し始めている。

今後のM&Eのオートメーション(自動化)の展望

  • コンテンツのパーソナライズ
    視聴履歴や指向を解析する
  • ストーリー分析
    画像と言語の両面からの複合的な解析
  • コンテンツ生成と差し替え
    静止画から動画の生成など。一方でディープフェイクが今大きな問題になり始めている
  • 感情分析
    画像によるものと言語によるもの
  • 格付け
    定量的だけではない定性的な格付けや評価
  • 類似性検索と盗作検出
    これは実用化レベルと言ってもよい
  • インタラクティブな映画
    ニーズの有無は不明だが技術的には実用域に向かう
  • リアルタイム(動的)なコンテンツの分類
    レコメンドや編成のリアルタイムかつパーソナライズ化

Googleがコンテンツのインテリジェント化をエコシステム上で整理した図

セッションの中から、フレーム単位ではなくシーンとして認識する必要があるという指摘

こうしたAIやMLのメディアやエンターテインメントでの利用は、利用者の利便性の向上と制作者の効率化という2つの側面がある。これらは決して単独や別々で機能することではなく、表裏一体となって効果を上げるものである。たとえばメタデータの生成が自動化されることによってコンテンツ制作者の業務が効率化され、それによって提供されるレコメンドの精度が上がると利用者が便利になり、またそれを使うという好循環が生まれるようなことだ。

メディアとエンターテインメントの殆どは映像と音声で構成されているので、画像や音声の認識にAIを利用するのがまずは基本であり、その技術的な課題はある程度パワーで解決されていく。パワーというのは、一つはマシンパワーのことであり、GPU、NPU、VPUパワーの向上による。

そしてもうひとつパワーが必要になるのは学習ライブラリーである。Scikit-learn、TensorFlow、Chainer、Caffe、CNTKなどのライブラリーは、グーグルやマイクロソフトのような大手が膨大な費用、知見、頭脳を駆使して構築しているものであり、ここは誰でも簡単に手が出せる状況ではない。そしてこのライブラリーは誰に対しても共通に提供されている、利用可能な状態にあると言ってもいい。

たとえばGoogleのTensorFlowはオープンソースである。つまり、CPUを作れなくてもパソコンの製造ができるように、MLのための学習ライブラリーが作れなくてもMLはできる。差が出る部分は、例えば教師データの与え方とか量とか、入力データと出力データの関係性を示す関数の作り方、という部分がML精度を上げるための競争ポイントになる。

txt:江口靖二 構成:編集部


Vol.05 [IBC2019] Vol.07