映像表現と気分のあいだ

「ぽさ」「感じ」あるいは意味体験というものに触れる中、ここ3回は「メディア」について掘り下げてみた。その1回目(Vol.07)にあたってこんなことを書いた。すなわち、映像表現などのコンテンツと、それらを視聴した読後感、そのあいだに意味体験があり、さらにコンテンツ意味体験、そのあいだにメディアがあるのではないか。でもどうやらコトはそう単純ではなくて、メディアをもっと本質的に捉えれば、それは「コンテンツー意味体験―読後感」という構図全体を包み、その全体に影響するレベルのものかもしれない、ということを述べてきた。

こうした考察に至るには、「メディア」というコトバを、情報伝達する「組織・企業」や「媒体(枠)/プラットフォーム」として捉えたり、あるいは「コンテンツを媒介するデバイス」としてだけ捉えるのではなく、より大ぐくりに「私たちの情報入力のための、テクノロジーを含んだ環境全体」なんだ、というふうに捉えた方がベターで、それがマクルーハンのいう、「メディア」の意味にもつながる。

マクルーハンによる「メディアはメッセージ」というフレーズは、コンテンツではなくメディアこそが、実は私たちに意味体験を与えているということだった。このメディアによるメッセージ=意味体験とは「この映画が面白かった」とか「この映像作品がイケてる」などの、個々のコンテンツからの意味体験のことではなくて、それらの土台をなすような暗黙裡の「時代時代ごとの、情報入力環境がもたらしている(社会に共通した、基本的な)」意味体験のほうのことだった。

    テキスト
意味体験をめぐる簡略イメージ(筆者)
「情報ー意味体験ー読後感」というモデルの土台に、メディアによる意味体験があるという仮説を図解したもの
※画像をクリックして拡大

では、今のメディア環境ではそのメッセージ(=意味体験や「ぽさ」)がどうなっているのか、前回は無理を承知で匂うところに触れつつ、ひとことで言えば「スマホ時代におけるメディアのメッセージ」を追ってみた。

さて、ここまで本稿では「意味体験」(ぽさ・感じ)を手掛かりに、映像表現などのコンテンツに留まらず、モノコトヒト環境、すなわち私たちに対する日常的な情報入力をどのように「意味的に」仕分けることができるか、について述べてきている。このあとは何回かにわけて、「ぽさ」の各タイプでの深掘りをしていくつもりだが、その前に一旦立ち止まって、なぜ筆者がこうした領域を考察しているのか、本稿の過去回参照部も少々散りばめつつになって恐縮だが、その意図や経緯にも触れておきたい。

デジタルな生活環境と「意味」

やや時流的な話になるが、いまの世の中ではデジタル・スマート・DXなどのワードが席巻している。中でも人工知能(AI)は社会や生活を大きく変えつつあるテクノロジーだ。ところでこのAIには「意味」が理解できない、ということをご存じの方も多いだろう。深入りは避けるが、AIの優秀さは数値演算にあり、意味の生成にはない。昨今はGPT-3という、かなり進化したツールによって人工知能での翻訳が行われるようになったが、これとて個々の文の意味を理解しているわけではなく、膨大な学習量からのパターン認識をベースに翻訳を行っている。対話エンジンもほとんどがそうである。

上で述べた「意味」ということをもう少し掘っておく。例えば私たちが草というコトバを思い浮かべるとき、<生えてるな、風にそよぐな、微妙な緑色をしてるな、何となくこういうかたちをしているな、引っこ抜けるな>などなど、様々な連想を浮かべることができる。さらに「晩秋の夕暮れに、高原で風にたなびく草」と言われれば、なんとなく視覚イメージを伴った「感じ」が頭の中に生成される。さらには、なぜか生成されたこの「感じ」は、ある程度において相手と共有可能だったりもする(Vol.05)。

この「感じ」が、人工知能には最も難題なのである。上の「草の感じ」に似合うクラシックの曲を5つ挙げて、といったら相当大変だ。ここでいう意味とはこの「感じ」「ぽさ」のことを指している。辞書に「草とはこういうもの」という説明で書いてある説明や定義ではない。それ以上のしなやかさをもったもので、本来的にはコトバにもしにくいものだ。

端的にいえば、こうした「感じ」や「ぽさ」、連想、メタファーなど「意味」寄りのものは、物的な性質とは違って測定や計算がしにくい。だから、映像表現などのコンテンツを含む、モノコトヒト空間を、私たちがどのような「感じ」をもって情報入力しているのか、この部分が現状ではデータになっていない。つまり、(物理的な)モノコトヒト空間と、私たちの感情を接続している「意味」の領域が、デジタルの世界ではデータになっていないということだ(Vol.05)。

    テキスト
「原因・動機」という意味の領域が、入力情報や結果のデータと紐づかない状態
※画像をクリックして拡大

この状況例として、現状のマーケティングデータがあげられる。物的な現象など、数値に還元でき測定できるものが現在のデータが扱う対象なので、人間の関わる活動においても、移動や決済の履歴、視聴回数など数値化できる「結果」はマーケティングデータとして重宝される。しかし「どんな気分で移動したのか、どんな動機で決済した(買った)のか、視聴したコンテンツにどんな<感じ>をもったのか」といった「原因や動機の領域」は現状、データ外のものになっている。これらは私たちと、入力情報すなわちモノコトヒト環境のあいだに生じる「意味」の領域といえる。

ほんの一例だが、数年前に顔認証技術がマーケティング界隈で盛り上がった時期があった。海外カンファレンスでの技術紹介で「こういう顔をした人の割合が多いとそのコンテンツは好意的に取られていて、逆にこういう顔をした人が多いとそのコンテンツは問題がある」というような例が紹介されたとき、一人のオーディエンスからこんな質問があった。「表情から、そのコンテンツに問題があることはわかった。じゃあその場合、どういうコンテンツにすればよいのか?」これは言い換えればそこにどういう「意味」が生じれば良かったのか、という質問で、実は本質的な問いだけれど、当然納得いく回答はなかった。

多くの場合データ収集されるのは「結果」、つまり上の場合はコンテンツを見た人々の表情のデータだ。しかし、その「原因」である「意味の領域」が紐づけされていないので、その理由である「なぜ」がわからない。だから表現コンテンツの制作側(モノコトの企画側、空間プロデュース側)にとっては納得度が半分になってしまう。

脳波測定などの説明原理においても似たことが起きてしまう。「意味」の領域がデータに紐づいていないので、そこから遡ってコンテンツ側を分析するところへ到達できない。クリエイターは往々にしてデータを信用しないと言われるが、このことも構造的な一因ではないか。クリエイティブによる「意味」は、現状「測定結果」としてでてきた数値とは別のものだろう、それはその通りだ。

質的なデータ

本稿では上記で述べた「意味」を「意味体験」(感じ/ぽさ)、あるいは単に「体験」という語に置き換えてきた。上述のとおり、辞書を引いて確かめる(統語的な)「意味」とは別のものである。この領域がデータとして取り扱えるようになるのか、というのが筆者の大きな問題設定としてある。もう少し踏み込んでいえば、これからのAIが、多少なりとも人々の感じる「ぽさ」「感じ」を理解できるようになるのか、という問いでもある。

上のエピソードでは、たとえばコンテンツで生じる意味体験がある程度分類できているなら、表情(読後感)との関係も類推しながら、同時にコンテンツとの関係(こういう意味体験を狙った方がいい、など)についても、もう少し整理や助言もできそうだ。「あいだ」がわかれば、映像表現(入力情報)と読後感の双方をブリッジできる。

このように、現状支配的な「なにかの結果」を測定するデータを測定データ、ないし現象データと呼ぶとするなら、一方で「その原因側」である「意味」のデータというのは、私たちが日々なんらかの情報入力を受けたときの「ぽさ」「感じ」「意味体験」領域を扱うもので、「質的なデータ」とも呼べるものである(Vol.06)。

この質的なデータにとって「計測すること」はなかなか難しい。顔認証、脳波、脈拍など色々な試みがあるものの、こうした結果としての生体・脳反応がわかっても、入力されるコンテンツ、モノコトヒト空間のほうがいったいどんな「感じ」「意味」だったのか、という情報がそこにはない。被験者が無表情ならかなりお手上げである。

むしろ、入力される映像表現やモノコトヒト空間(入力情報)の方に注目して、これらによって私たちとのあいだに一体どんな「感じ」が生まれやすいのか、ということを本筋に「意味体験」の大きなタイプを仕分けたほうが、「質的なもの」をよりよい粒度で分類仕分けできるだろう。

現状ではそうなっていない。測定できる数量データの方をコンピュータ処理して、情報入力の環境をどんどん「最適化」していくほうが作業は簡単で安上がりだ、という論理が今のところ強い。

例えばコンテンツなら検索上位のものが観られ、観られるからますますレコメンドの上位を占め、さらにまた観られていく、という優勝劣敗のゲームがデフォルトになる。モノやコトなら、こうして無難で安価なものが優先的に流通していく。こうした情報流通を下支えしながら、情報入力環境をはじめとする私たちの生活環境がどんどんDX化し、知能化(ただし「意味」はわかっていない知能化)していく。現在の様相はこんな感じだろう。

そんな中で、私たちがある程度共有できる「意味体験」のタイプをわけて、シレっと数値データに意味のデータを紐づけていき、多少なりとも意味のわかる生活環境へ変形していきたい(よりQOL高いDXにしたい)というのが本稿に通底している考えだ(Vol.06)。

    テキスト
「原因・動機」という意味の領域と入力情報(それぞれに意味の色付けがされる)が紐づけば、結果のデータも入力情報や意味の領域と紐づくようになる
※画像をクリックして拡大

映像表現における自動化、への問い

筆者がデータにおける「意味」的側面(意味体験)にこだわり始めたのは、もちろん映像表現にまつわる広告ビジネスに関わっていたことが大きい。広告映像の分野は「私たちの意識を変容させることをテーマにしたコンテンツ創造」を中核としたビジネスフィールドといわれる。石田英敬氏によれば、こうしたビジネス領域は「文化産業」と呼ばれる。みんなの意識や気分を創る産業、まさに「意味」をつくる産業である。映画やファッション、テレビCMはまさにその尖兵ともいえる役割を担ってきた。そんな中、ミレニアル近辺を節目に生活の主要メディアがネット・シフトを加速していく。

石田英敬「大人のためのメディア論講義」
文化産業の成立経緯やその意義についての知見に満ちており、特にプロデューサーの方々にはお勧めしたい一冊

そして2010年代初め、人工知能の深層学習領域でブレイクスルーが起きた。よく知られている例だが、ディープラーニングの技術によって、AIが誰に教わることもなく自律学習によって猫の画像を判別できる、ということが一大トピックとなったのだ。こうしたテクノロジーの進展により、映像表現がどの程度自動化されるのか、に筆者はかなりな関心(少し大げさにいえば危機感)をもった。

もちろん、クリエイティブで重要な「ぽさ」「感じ」「意味体験」の領域とは、現在の人工知能が扱えない「意味」に関わる領域だ、ということはAI系の研究者には自明であり、当時でも「クリエイティブ分野は最後まで人工知能に職を奪われない聖域」などといわれた。しかし、筆者にはどうも疑問が残った。本当にそうか?ある程度のパターン化ならやれるのでは、と感じたのだ。(上の猫のような)教師データ不要のディープラーニングではハードルが高いにせよ、教師データを与える機械学習なら多くのパターン学習が可能になっていた。

パターンとデータベース

例えば会社案内のヴィジュアル。会社の事業を概要的に見せ、現場社員の声を幾つかサンプリングし、ビッグビジュアルと共にこれからの会社ビジョンを見せる、程度の無難な構成であればフォーマット化は容易そうだ。つまりパターン認識させられ、各社の素材だけを用意すれば、あとはポンポン量産できそうだ。

あるいはキャンペーン訴求のCMならどうか。オドロキの表情をアップした映像に訴求内容(契約月無料とか期間限定で〇〇!など)のタイトルワークをのせ、アテンションを引く音楽をつける、という程度のフォーマットであれば、これも教師有りの機械学習でパターン認識できそうだ。顔の素材、タイトルのフォントバリエーションなどを蓄えておけば、さまざまなパターンがポンポン作れそうである。

もちろんこれらの例はアナログ時代であったって、ある程度パターンがあれば出来ることだが、デジタル&ネット時代にこれらをSaaSなどにしてしまえば、価格は破壊的に安くでき、作業もかなり省人化できてしまう。最低限のクオリティがあれば十分、という向きにはコスパの良い映像に思えるだろう。

コスパの良い広告映像がスマホの視聴空間を席巻すれば、そのコスパ志向でのクオリティが、だんだんと世のスタンダードなクオリティになっていきそうだ。筆者などは「何か違う」と思ってしまうが、テクノロジーの進展は止められない。

というわけで、先の人工知能のブレイクスルーが起きた当時、筆者はおそらく早晩、安価な自動映像制作のオンラインサービスが(映像業界からではなくテクノロジー業界から)出てくると予想した。当時は考えすぎだと笑われたりしたが、幸か不幸かその状況はじわじわと確実に進んでいる。

次に考えたのは、映像表現のどういうものがパターン化できてある程度まで自動化できるのか、あるいはできない部分はどういうところか、を見極めようということだ。大げさにいえば、クリエイティブにおける人間的な聖域はどこまでで、その境界線はどこか、ということだ。

広告映像は「私たちの意識を変容させることをテーマにしたコンテンツ創造」と先述したが、そうであるなら結局「意味」=質的な領域、ここを自動で生成できるのか?という本質的部分に行き着いてしまう。

ここを起点にして、本稿で述べたように「意味体験」を軸に広告映像を分類し(意識変容のさせ方=視聴者の気分の「もって行き方」についてをタイプ分けし)、分類した意味体験タイプごとにCM群を今度はコンテンツ制作面から解析してみる、そこにパターン化できるステレオタイプ構造があるかを見極める、このことがかなり重要なスタディになりそうだ。とそう感じたわけである。

別の言い方をすれば、まさに本稿のタイトルでもある、映像表現と気分の<あいだ>にある意味体験をタイプ分けすると、どういう共通パターンがあり、それはある程度なら自動生成することが可能なのか、ということだ。

意味体験のタイプ分けをしてわかったのは、Vol.02Vol.03に述べた通り、イメージやストーリーの流れとしてのステレオタイプはそこそこ収集できるということ、一方で完パケとしての映像までを自動生成するのは今では相当困難ということだ。総括すれば、特定の意味体験タイプをゴールにおき、字コンテをざっくり提案するくらいだと、現時点でも頑張ればできそうということがわかった。

Vol.04に記した通り、その後は対象をより広げ、広告映像などのコンテンツだけでなく、モノコトヒト空間と私たちのあいだに生じる意味体験をタイプ分けし、それが「質的データ」になるのか、という検証を続けている。細かくは省くが、意味体験タイプの分布を座標マップとして表現することで、質の領域をデータとして扱うことが可能になりつつある。各意味体験タイプを代表するようなステレオタイプが中核になってしまうが、より細かく微妙な意味体験についてもその「位置」を示せるよう研究を進めている。

このところ痛感するのは、QOLの見地から質的データへのニーズが増え、コンテンツのみならず街の空間アセットや EC商品など、多様な領域でビジネスへ拓かれつつあるということだ。

より広い視点に立てば、微細なニュアンスの豊富な日本にとって、質的データの領域には文化的にもアドバンテージしかない、と筆者は感じている。

メディア環境で変わる「意味」との距離感や濃度

前回述べた通り、時代はスマホによるデジタルデータのメディア環境となった。マクルーハンの「私たちはバックミラーを見ている」というテーゼ(Vol.08参照)によれば、私たちはアナログメディア時代を今とは違う過去として、ようやくバックミラー的に見られるようになったはずだ。前回はその中で、現在の私たちがメディアによってどんなメッセージをうけているかについて、少し具体的に検証した。

そのエッセンスも含めて、アナログメディア時代とデジタルメディア時代をより対比的・俯瞰的に見てみれば、私たちはおそらく以下のような状況にある。

  • (アナログメディア時代)わりとわかりやすい「意味体験」をマスメディアなどからプッシュされる時代
    (デジタルメディア時代)数値で効率処理された配信により、バラバラな「意味体験」を速射されるメディア環境
  • (アナログメディア時代)入力情報とは一定の距離感がある意味体験
    (デジタルメディア時代)入力情報と距離感ゼロ、かつ速射的/面的な接触による意味体験

この2つは、テレビや雑誌が主導してきた意味の環境と、スマホの情報入力によるそれとの違い、ということを比較してみるとわかってくる。

テレビや雑誌による意味体験、特に昭和後期のそれは「目指すべきセンスエリートやロールモデル」を目にして、そこに欲望や憧れ(たとえば、カッコイイとかこうなりたい!というわかりやすい意味体験)を醸すものが比較的多かった。よって、対象に自分を近づけたい、もっといえば自己同一化していきたい、という受容態度に私たちを導いた。

ここでは、対象と私たちの間には多少なりとも距離感があって(芸能人やモデルであるという距離感や、「東京」の読モであるという距離感、あるいはハーフや外国人である、という距離感など。握手会とかはない)その距離を何らかの努力で埋めていく、というような心理ゲームが多少なりとも効力をもっていた。

もう一つ付け加えれば、TVや雑誌の情報には始まりと終わりがあった。雑誌ならあるページ数を読めば、番組ならある時間を視聴すれば情報入力は一応、終わる。終わったあとは個人個人が憧れや思いを反芻する時間が確保できた。

一方でネットによるスマホ情報は、前回述べた「手のひら化」という操作可能性・可塑性によって、今見ている情報からいくらでも離脱、乗り換えが可能だ。ゆえに欲望や憧れをひとところに留める、ということには原理的には向いていない。

注意は分散し、自分もああなりたい、というような固定的な憧憬対象も(相対的には)生まれにくい。たとえすごく好きな推しアイドルが確定していたとしても、情報の文脈は次々に入れ替え可能なので、アイドル情報→友人のSNS→支払い通知→ゲーム→ニュース、などというダイナミックな文脈が展開し、注意はどんどん分散する。なにより、検索すればもっと別の「憧れ」の候補だってどんどん出てきてしまう。憧憬対象も分散する。

こうした中では、憧憬対象のイメージを頭の中に取り込んで、存分に咀嚼することにはかなりの努力・頑張りが必要になる。憧れの対象に関する情報不足を「距離感」として楽しむ、なんていうのもなかなか難しそうだ。スマホがいつでもそこにあるからだ。ついつい情報検索を始めたら最後、そこにはもう際限がない。SNS、ブログ、関連情報、口コミ、周辺情報などなどを探ると、それだけでも何日あっても足りない。情報を咀嚼して「感じ」を自分なりの「感じ」へと発酵させていくよりも、こうした情報狩猟や次々探索することの方がむしろ目的になっていく。

ある程度距離感をキープし、欲望を明確に押してくるメディア環境と、距離感ゼロの接触的な速射と文脈ジャンプの繰り返しによって、さまざまな欲望(あるいは心配やネガティブな気分)を間断なく入力させるメディア環境。そこでは欲望=意味の濃度や、対する距離感がじわじわと変化していく、これがアナログメディア時代とデジタルメディア時代を比べての大きな違いではないか。もちろん、どちらが良いか、という議論ではなく、そうなっている、という現実だ。

「意味」への自意識

そもそも、アナログメディア時代とデジタルメディア時代によって、意味体験タイプのバリエーション、もっといえば欲望タイプのバリエーション(=私たちが持っている大まかな欲望のバリエーションのようなもの)自体にそれほど変化はないのかもしれない。ただ、その欲望を自分なりに咀嚼する=編集する時間があるのかないのか、というのが大きな違いなのだろう。これは上述した意味の濃さや、意味との距離感と関連している。

でも、そうであれば全く逆に考えることもできる。スマホ=ネットメディア環境になり、アナログメディアが相対化、バックミラー視できるようになったからこそ、アナログメディアの時代に花開いた私たち自身の欲望タイプ、バリエーションを自身で判別しやすくなってきた、ということもあると思う。

スマホ=ネットメディア環境にある私たちに、雑然とどんどん入力されてくる情報(たとえばインスタのポスト、いろんなツイート、いろんな動画コンテンツ)を一歩引いて見てみれば、これらの情報が私たちの「どのタイプの」意味体験のスイッチを押しに来ているのか、私たち自身で確かめることがしやすくなったということだ。

マクルーハンもいう通り、メディアが変化してもコンテンツは前のメディアのものを繰り返したりする。アナログメディアの時代に数多く作られた広告映像の整理は、私たちが入力情報の意味体験タイプを判別するのには秀でた資料なのだ。

私たちが「そもそもどんな欲望のバリエーションを潜在的にもっているのか」を自身で確認できる(大局観とかメタ認知ともいえる)ことは、世界の見通しが良くなることにつながるし、ちょっとだけ違う自分だけの欲望(=自分の「ぽさ」)に気づく大きな契機にもなる。

ここ数年でYouTubeをはじめ、SNS上で花開いた個人発信のコンテンツには、こうした「自分のぽさ」を感知するためにかなり有効なものも多くあると実感する。そうしたものは「バックミラー」的なコンテンツとは違う、微妙な位置のボタンを押しに来ているはずだ。

WRITER PROFILE

佐々木淳

佐々木淳

Scientist / Executive Producer 旋律デザイン研究所 代表 広告制作会社入社後、CM及びデジタル領域で約20年プロデュースに携わる。各種広告賞受賞。その後事業開発などイノベーション文脈へ転身、新たなパラダイムへ向けた研究開発の必要性を痛感。クリエイティブの暗黙知をAI化するcreative genome projectの研究を経て「コンテンツの意味体験をデータ化、意味体験の旋律を仮説する」ことをミッションに旋律デザイン研究所設立。人工知能学会正会員。 http://senritsu-design.com/