NAB2018もうひとつの視点 / Vol.02

NABの次の主役はAIとマシンラーニングに

2018.05.07

txt：江口靖二　構成：編集部

映像制作の世界に一気に押し寄せてくるAIの波

今年のNABの傾向として、一気にAIやマシンラーニングが表舞台に上がってきた感がある。これは数年前からの社会全般の傾向であるが、映像・放送業界にも広がってきた。この領域で中心にいるのはAmazon AWSである。NABではAWSが提供しているさまざまな画像や言語の認識や解析のサービスを、AWS自身はもちろん、様々なパートナーがデモしていた。セントラルホールのメイン通路では、AWSは3つのデモを行った。

一つ目はAmazon Transcribe。これは音声認識サービスである。映像に含まれている音声内容を認識しテキスト化すること、誰が話しているかを認識すること、話されている内容の時間を認識することを同時に処理できる。これによって字幕やテロップ制作の負担が軽くなったり、テキストベースによる画像検索や頭出しなどに利用ができる。出力される文字情報には句読点も含めて出力されるので、再編集の手間を軽減できる。利用料金は0.0004USD/秒。

音声のテキストとその時間を同時に抽出している

二つ目はAmazon Rekognition。これは画像認識と画像解析サービスである。物体認識、顔認識、感情認識を含む顔分析、人物のトラッキング、画像中にあるテキスト抽出を行い、それぞれに関してインデックス生成（タグ）が可能である。動画解析においてはリアルタイム処理が可能である。シアトルにオープンした無人の小売店舗であるAmazon Goのような場所では、人物トラッキングで利用されている。利用料金は、分析したアーカイブ動画1分あたり0.13USD（1分未満は秒割計算）、分析したライブストリーム動画1分あたり0.15USD（1分未満は秒割り計算）となっている。

画像認識によってタグを自動抽出している

上記と同様に画像認識によってタグを自動抽出

これらAmazon TranscribeやAmazon Rekognitionは、映像コンテンツ制作や制作されたコンテンツの管理において強力な助っ人になり得る。

三つ目はAmazon Comprehend。これはマシンラーニングによる自然言語処理サービスである。言語を認識した上で、肯定的か否定的かを認識することができる。ソーシャルメディアの投稿やカスタマーサポート寄せられたテキストを分析することで、製品やサービスに対する顧客の反応を分析し、改善をすることが可能である。利用料金は100文字単位で0.0001USDからとなっている。

ソーシャルネットワークの解析のデモ

キーワードなども抽出されている。

こうしたサービスは、Googleも同様のサービスであるGoogle Cloud Visionの提供を開始しているが、どちらもクラウド上で展開をしている。このためクラウドへのアクセスが必須となっているが、通信料やクラウド利用料が増加したり、インターネット経由で処理されるため処理速度が遅くなったり、セキュリティの問題が出てくる。これらを解決するために現場近くエッジサーバーを用意し、ローカル処理できることはローカルで高速処理する構成にしたのがエッジコンピューティングだ。このエッジ処理も必ずしも高価なマシンを必要としなくなってきている。

たとえば昨年Intelが買収したMovidius社の「Movidius Neural Compute Stick」は、ノートPCやRaspberry Piなどに外部接続するGPUのようなもので、わずか79ドル、日本国内では税別10,000円で販売されているUSBスティックである。これに搭載されている「Myriad 2」というチップは、DJIのドローン「DJI Spark」にも搭載されているというとイメージしやすいだろう。こうしたマシンラーニングやエッジコンピューティングの技術が、今後の放送機器にも何らかの形で組み込まれていくことは間違いない。