ライブメディアでの必須事項は”コストダウン”と”スペースファクターの更なるコンパクト化”だろう。しかも品質は維持したままでだ。機材の規模を縮小する事はこの2点に合致する。機材自体の小型化と高機能化でこの条件が満たせれば良いが、往々にして高価になったり操作運用が複雑になったりする事が多い。
そこで自分なりの解答として音声処理システムを構築した。実際の配信(ライブメディア)での実働している音声処理システムの例として「MAPS(Mobile Audio Processing System)」
(命名:斉藤英夫氏)
を紹介したい。自分がなぜ自前の音響機器をひとまとめにして「MAPS」というシステムに辿り着いたかを書いてみたい。元々音楽の録音編集やナレーションの収録編集等を手がけていたので配信というライブメディアが立ち上がった2010年に音声関係で珍重されたのが配信音声に関わるきっかけだった。とにかく色んな現場で色んな要求があったが、スペースやコストの制限が半端無い。普通の思考では駄目だと、早々に何らかの対策を考えていた。
ミキシングシステムの対応力を上げるとミキサー自体が大規模になり、しかもエフェクター(音響効果付加機器)類も内蔵の物では足りなくなるので別途用意しなければならない。また様々な音響効果毎にエフェクターが必要になる。設置場所、設置時間も必然的に膨れあがる。そこで音声処理エンジンをDAWに任せて、音声信号の入出力はオーディオインターフェイスに総て任せてしまい、音声処理システムを現場で突き合わせながら組み上げてしまおうと考えたのが「MAPS」のそもそもの始まりだ。
思考の柔軟性にミキサーと言うハードウェアのみでは、対応しきれないので処理の多くをソフトウェア化して対応する事にした訳だ。実際に現場で設置稼働させ様々な条件や要求に応じて対応できる事を実戦証明し、日々進化し続けているのが「MAPS」で、それは特定のシステムではなく概念であり思考である事を理解して欲しい。
基本的に行う作業として以下の様なものがありこれらを的確に処理できる事が要求される。
- 音量補正は手作業(手コンプ:手動操作でフェーダー、ボリュームを操作、音量平滑化する)で行う
- TRIM、EQは、演者の声質や他の演者との兼ね合いで微調整
- 休憩などで適宜、ミュート(消音)等行い、必要な場合にはBGMも適宜加える
- 常に適切な音量、音質で配信や会場PAに音声を流す
- 音楽イベント等で会場PAから音源を供給してもらう場合、配信に適切な音量、音質に調整し必要な音を更に加えて最終的に配信に適したバランスに整音された形にする
- 現場で配信状況がわかる様に「返し」としてPAから音声を出す
アプリケーションソフト群による音声制御。これはソフトウェアでミキシングを行える様にしたもので擬似的にミキサーを構成している。エフェクトとは音声に対して様々な処理を加えることで目的の効果を与える。幾つかに分けられるが大体以下の様な分類になる。
- 音源からの音声の音量や音質を適切にする → ダイナミクス系
- 不要な音を制限、調整する → フィルター系
- 各種音源に残響等を加える → エコー系/ディレイ系
ソフトウェアミキサーで省スペース、効率アップ
ここで言う「ソフトウェアミキサー」とは、DAW(Digital Audio Workstation)の様々な機能のうちリアルタイム入力のミキシング処理を利用したものである。入力する音源が増えると通常のオーディオミキサーでは、入力数や出力数、バス数が増えて大規模になる。写真のシステムは最大24in24outの構成だが、これをハードウェアで用意すると狭い現場では設置スペースを多く取って操作性も悪くなる。
ソフトウェアミキサーは入出力を自由に設定でき、出力先やグルーピング、AUXやバスといった機能をその都度、現場で再設定できる点が大きなメリットの1つである。また、オーディオプラグインによるエフェクト機能も、1つのプラグインを用意すれば複数のチャンネルにアサインできるのでハードウェアエフェクターを何台も用意するより効率良くスペースを使える。
エフェクト処理で必ず起こる遅延の対策もしやすい
プラグインのエフェクト処理にはレイテンシー(遅延)が必ず起こる。それにより画と音がずれるが、通常は画の方がタイミング的に遅れる場合が多い。つまり音が先行する形になるので音声の簡単なディレイ処理でリップシンクさせることができる。ここで重要なのは音声側の処理が安定していることだ。それは処理に伴う遅延の時間軸の幅の変動がなく、レベルオーバーも完全に防ぐ。レベルオーバーした音声は配信時の音声圧縮処理に影響を与えリップシンクずれ等の問題を引き起こす。
もう一つ重要なのは、プラグイン毎の遅延時間をDAW側で随時補正すること。昔はプラグイン毎に遅延時間を調べ、一番遅延するプラグインに合わせて他のプラグインにディレイを入れるという手動補正をしていたが、筆者が使用しているDAW(Digital Performer)は当初からこの遅延補正がサンプル単位で自動化されていた(自動化にはプラグイン側の対応も必要)。そのため、操作上の負担が少なく筆者は今でも現場で使用している。
基本的な操作はパソコン画面上でマウス等で行うが、さらにコントロールサーフェイス(操作卓)と呼ばれる周辺機器を用意すれば、操作性もハードウェアミキサーと遜色ない環境にできる。またDAWではフェーダーのグルーピングも自由自在に設定可能で複数のフェーダーをまとめて1つのフェーダーでまとめて操作することも可能になる。
現場ではハードを使うことがまだまだあるが、複雑な処理を短時間で行う場合にはソフトで一気に処理したほうがメリットが多い。ソフトウェアミキシングは今後も発達し続けるだろう。
音源をオーディオインターフェイスを介してアナログ音声からディジタル音声として、PC(MacBook Pro)にデータ化して入力。Digital PerformerというDAWソフトウェアでデータのままエフェクト処理や音量調整してミキシングし、その音声をオーディオインターフェイスに戻し、配信用のスイッチャーなどに送るという仕組み。フェーダーやツマミをハードウェアのように直感的に操作するためのコントロールサーフェイスもある。実際の現場では写真のように機材を現場の状況に合わせて様々な形態にして組んでいる。
ライブメディアでは、最初は映像に注目しがちだが配信を何回か経験すると音声の重要性に気が付くだろう。先ずこの音声の重要性について説明する。映像は多少の途切れ等があっても比較的視聴に大きな影響を与える程ではない。実際1秒間に数十枚の静止画で構成されているものが動画として認識されるのだからその内の1枚が抜けたとしても全体の流れに大きな影響は与えない。
しかし音声には「静止音」は存在しない。連続した情報として成り立っておりその情報の一部が欠けても前後関係が崩れる場合が殆どである。音声はその情報の連続性が大きな意味を持っており途絶無く順調に配信される事で初めて内容が伝わるのである。では「音の重要性」とはなにか?
- 「音」はその情報の連続性に重要な意味がある
- 「音」は常に変化する音波を認識する事で内容が把握される
- 「音」はそれ自体に途絶や歪み(音割れ)等の障害があるとたちまち伝えるべき内容は破綻してしまう
配信では音質の良さは視聴の開始や継続する動機付けになる。これらは「ながら視聴(PC画面上で別の作業をしながら配信音声のみを聴取し、自分の興味のありそうな場面が出てくると配信画面を前面に出し映像とあわせて視聴する)」を誘発する。音声が良好でなければ視聴者はこの「ながら視聴」をする動機とならず、配信の配信自体視聴を続けられない(実際、聞くに堪えない音質の配信は視聴者が離脱する傾向がある)。故にライブメディアでは配信する側は配信時には常に音の重要性を意識すべきである。
音の質として音の聞こえやすさとは何か?
聞き易い音の重要な点は「必要な音が確実に聞こえる事」そして「不要な音が含まれていない事」である。何を伝えるかを明確にする事、そうすれば収音すべき目的の音が明確になる。それらを確実に捉える事に注力すればよい。「良い音=原音」という誤解について。基本的に原音を再生する事はかなりのリソースを費やす。しかしこれが必ずしも良い音とは限らない。最高品質の機材でなくとも良い音は充分目指せる。
人によって受ける印象が異なる音質
視聴者によって目的とする音声が異なる場合、各個人毎に音の印象が異なる。音量を始め音色、音域等個人の嗜好により同じ音であっても受ける印象が異なるのである。また各個人の聴力の差異も影響する。自分にとって100点満点の音ではなく万人に対して80点程度のニュートラルな音を目指す様に心がける。つまり、特定の誰かにとって100点満点であっても他の人には0点という事は充分有り得る。
txt:須藤高宏 構成:編集部