DaVinci Resolve 18.5の字幕自動生成/自動文字起こし機能を検証

2023.07.31 txt：小山安博　構成：編集部

Blackmagic Designの動画編集ソフト「DaVinci Resolve」。高機能と使い勝手で定評のあるソフトだが、特に無料版でも十分な機能を備えているため、プロユーザー以外の愛用者も多い。

有料版にしかない機能としては、GPUによるアクセラレーション、120fpsまでのフレームレート、8Kなどの高解像度対応などもあるが、大きな違いとしては「DaVinci Neural Engine」の搭載が挙げられる。同エンジンはAI機能を提供するが、最新のAI機能として用意されたのが動画内の音声をテキスト化する機能だ。この新たな音声のテキスト変換機能についてチェックしてみた。

※本文で紹介に使用した素材と記事掲載の画面素材は異なるものであることをご了承いただきたい。

AIが動画の音声をテキスト化

最新版となるDaVinci Resolve 18.5はベータテストを経て正式版を公開したばかりだが、その中で新機能として搭載されているのが、「自動音声テキスト変換機能」と「字幕生成機能」だ。機能としては異なる2つだが、音声をテキスト化するという部分では共通しており、AIの進化によって実現された機能だ。

【01】

まず自動音声テキスト変換機能は、メディアプール上の動画ファイルに対して実行する。動画の右クリックから「Audio Transcription」→「Transcribe」を選択すると、自動的にテキスト化が開始される。

DaVinci Resolve 18.5の字幕自動生成/自動文字起こし機能を検証[Report NOW!] — 動画の右クリックから「Audio Transcription」→「Transcribe」を選択

【02】

21分10秒ほどの動画で試したところ、2分34秒ほどでテキスト化が完了。解析中は8～10倍速ほどの解析速度の表示が出ており、実際に完了までの時間もおおむね10倍速ほどだった。

【03】

テキストは別ウィンドウとして表示され、発話者の無音部分を検出するなどして、ある程度ひとかたまりで段落が分かれた状態になっている。無音部分や「えーと」などの間投詞で段落分けがされることが多いようだ。

DaVinci Resolve 18.5の字幕自動生成機能検証レポートメイン画像

【04】

この間投詞もすべて記録するのではなく、だいたいにおいて省いて「（…）」として空白扱いにしているのも便利なポイント。（…）となっている部分は、ウィンドウの右上にある「…」から「Remove Silent Portions（無音を削除）」で一度に削除できる。画面上では取り消し線が入り、動画をタイムラインに挿入するとその部分がカットされるので手間がかからない。

【05】

タイムラインに動画を挿入する際は、必要な範囲をテキストベースで探して挿入できる、というのが最大のメリットだ。動画の時間やフレームでインとアウトを決めるのではなく、テキストでイン-アウトを決め打ちできる。「この話をしていたのは10分頃だからその時間に移動してフレーム単位で該当個所を探す」という作業は必要ない。

その話の内容のキーワードを検索ボックスからテキストで検索し、該当個所のテキストを選択すればいい。画面下の挿入ボタンを押すと、その部分の動画がタイムラインに挿入される。

トランスクリプションウィンドウでは、検索と置換機能も搭載。同じスピーチ内だと、同じ言葉は同じように変換間違いを犯す場合が多いので、一斉に置換をすると一気に修正ができて便利。

他にもテキストファイルの書き出し機能も備えているので、書き起こしの共有をすることも可能だ。

この自動音声テキスト変換機能は、長い講演動画や長時間のミーティング動画など、必要な部分だけ抜き出して動画にまとめたい場合などに役立つ。まずはスピーチ内容でだいたいのあたりをつけて、範囲を指定してタイムラインに読み込むという使い方ができる。

タイムラインに動画を挿入するのに際して動画視聴することなく、音声を聞くことなく選択できるというのが強み。

最適なタイミングで字幕を自動生成

もう一つの機能が自動字幕生成機能。これは読み込んだ動画に対して字幕を自動で適用する機能だ。

【01】

動画をタイムラインに読み込んだあと、メニューの「タイムライン」→「Create Subtitles from Audio…」を選ぶと字幕メニューが起動する。

【02】

言語設定は「Auto」でもきちんと日本語も認識するし、英語やドイツ語、中国語など14言語をカバーする。「キャプションプリセット」では、「Teletext」と「Netflix」というプリセットが選択可能。1行の文字数、字幕を2行にするかどうかといった設定をして、最後に「Create」を選ぶと字幕の作成が始まる。

【03】

作成にかかる時間は、自動音声テキスト変換機能と同じ動画を使ったところ、21分10秒の動画で2分33秒とほぼ変わらない時間だった。音声のテキスト化を担うAI機能の部分は同じエンジンなので、時間が変わらないのは当然と言える。

字幕は、自動的にタイムライン上に配置される。音声に合わせて配置されるので、字幕と動画の時間を合わせる必要もない。

【04】

エディットページでは、配置された字幕（キャプション）を細かく修正できる。これはTTMLなどの字幕ファイルを読み込んだときと同じ機能だ。従来のように別途字幕ファイルを用意する必要もなく、自動でテキスト化し、自動で配置してくれるというのがこの機能の魅力。

このようにどちらも、「自動で音声をテキスト化する」という機能だが、役割はそれぞれ異なる。自動音声テキスト変換は、動画の使いたい場所を探して切り出すための機能だ。それに対して自動字幕生成機能は、読み込んだ動画に対して字幕を生成するためのもの。

役割が異なるため、それぞれ使い分けはできる。ただ、自動音声テキスト変換で作成されたテキストを、そのまま字幕データとして流用することはできない。例えばテキスト範囲選択してタイムラインに動画を読み込んだとき、範囲選択したテキストがそのまま字幕として埋め込まれる、という機能はないようだ。

AIで大幅な効率化

AIが音声からテキストに自動変換してくれる機能は、最近は様々なサービスが登場している。GoogleのPixelスマホに搭載されているレコーダーアプリのように、スマホアプリを使ってローカル処理でリアルタイムにテキスト変換してくれるものもあるが、多くは音声ファイルを読み込んで変換するタイプ。クラウド処理をするものがほとんどだ。

DaVinci ResolveのライバルでいえばAdobe Premiere Proにも同様の機能があるし、音声文字起こし機能を提供するWebサービスも多い。そうした音声文字起こしサービスと比べても、DaVinci Resolveは高い精度と変換スピードを備えているのが特徴だ。

DaVinci Resolveの場合、以前からAI機能である「DaVinci Neural Engine」が搭載されており、そのテクノロジーがさらに進化して、音声を認識してテキスト化することが可能になった。ローカルでのテキスト化にも対応しており、ネットワークがない環境でも処理できるのも強み。

それでいながら処理は比較的高速。筆者の環境では10倍程度だが、GPUなどのハードウェアスペックに依存するので、よりハイエンドのPCであればさらに高速な変換が可能だろう。

精度に関しては、まず音声がどれだけきれいに記録されているか、話者が訓練されているかといった条件次第で大きく変動する。きちんとしたマイクを使って訓練された人間が一人で話しているというシーンだと、当然かなり精度は高い。

音質を改善することで精度は向上するため、自動字幕生成機能ではあらかじめエフェクトでノイズリダクションを提供するなど、音質を調整しておくと良さそう。実際、テストしてみたところ多少ながら音声認識が改善していた。

通常のカメラの動画で撮影したシーンでは、リアルタイムに音声認識してテキスト化するPixelスマホのレコーダーアプリやアドビのPremiere Proと比較しても遜色ないし、シーンによっては上回る精度になっていた。音質があまり良くない、話者もアドリブで話しているような環境で、だいたい5～7割程度の精度といった印象。少なくとも、他社の音声テキスト変換に比べて劣っているということはない。

変換速度に関しては前述の21分10秒の動画をPremiere Proでテキスト変換したところ2分50秒だった。いくつか動画を試したが、全体的にPremiere Proよりも少し速い印象で、特に残り時間が正確に表示されるのはありがたい。Premiere Proは残り時間が正確ではないのが気になったところ。

DaVinci ResolveのAI機能である「DaVinci Neural Engine」は、音声テキスト変換以外にも、オーディオクリップを分析して自動分類する機能や音声を分離する機能など、動画編集の効率化を実現する機能が充実。今回のテキスト化でさらに実用性が増している。

DaVinci Resolveは無料版と有料版があり、これまではGPUによるレンダリング速度などの差はあったが、一般的な用途だと無料版でも十分な機能だった。しかし、DaVinci Neural Engineが有料版しかないことで、有料版の魅力がさらに向上した。特に字幕を多用する人は試して欲しい機能だ。

DaVinci Resolve 18.5とPremiere Proの文字起こし比較

txt/構成：編集部

最後にInter BEE 2022のBlackmagic Designブース取材素材を使って、DaVinci Resolve 18.5とPremiere Proの文字起こし結果を紹介してみた。精度の参考にして頂ければと思う。元素材を編集してYouTubeに掲載したコンテンツは以下のものとなる。

DaVinci Resolve 18.5文字起こし結果

Premiere Pro文字起こし結果

はいじゃあいきまーす。はいじゃあ321スタート。ブラックマジックザインの岡野と申します。今回インタイビーで展示している目玉製品はこちらのダビンキリゾルブ4アイパートになります。こちらまだリリースされておりませんで年内にリリース推開予定されているものとなります。

世界で一応初めてのアイパートを展示となりまして今回もそのままの方が見にくるんじゃないかなと思います。ではちょっとご紹介をさせていただきます。特徴としましてはまずはカットページとカラーページというこの2種類のページから始まるというところです。今ダビンキリゾルブデストップ版が新たに開催されているものとなります。

今ダビンキリゾルブデストップ版がありますけれどもこちらのカットページとカラーページが入ってくるということですね。これからフェアライトページ、フュージョンページなどの他のページも導入される予定になっております。最大の特徴はやはりこのタッチパッドでコントロールができるということですね。例えばこのカットページでいきますとこのようにプレヘッド直感的に指で動かすことができます。

あとはこのアップルペンシルに対応しているんですね。これはもうiPadのオプション品ですけれどもこちらを使ってホバリングに対応しております。ですので例えばこういった編集点の上にカーソルをしてペンシルを持っていきますとこのようにちょっと見えづらいかもしれないですがアイコンが出てきましてトリムどちらするか短くするか、ロールをするかなどを決めることができます。

そしてこういうふうに動かしますと簡単に直感的にトリム編集ができるというふうになっております。このページは従来通りですね。皆様お馴染みのカナーのページがご利用いただけましてこのキーボードでもタッチパネルでもこのアップルペンシーでもどれでも操作をすることができるということになっております。

ポケットモンスター開花予想
はい、はい、じゃあはい、じゃあ321スタート。幕末かわいい農家のと申します。今回引退で展示している目玉製品は、こちらのダヴィンチディゾルブFORIPADになります。こちらまだリリースはされておりませんで、年内にリリースが予定されているものとなります。

世界で一応初めての展示となりまして、今回も様々な方が見に来るんじゃないかなと思います。いや、ちょっとご紹介をさせていただきます。特徴としましては、まずはカットページとカラーページというこの2種類のページから始まるというところですね。今だ見せざる部です。

本番がありますけれども、こちらのカットペーストカラーページが入ってくるということですね。これからヘアライトページフュージョンページなどの他のページも導入される予定になっております。最大の特徴は、やはりこのタッチパットでコントロールができるということですね。例えば、このカットページでいきますとこのように、これと直感的に指で動かすことができます。

あとはこのアップルペンシルに対応してですね。これはもうIPADのオプション品ですけれども、こちらを使ってホバリングに対応しております。ですので、例えばこういった編集点の上にカーソルをしてペンシルを持っていきますとこのですね。ちょっと見えづらいかもしれないですが、アイコンが出てきまして、トリムどちらをするか短くするかロールをするかなどを決めることができます。

そして、こういう風に動かしますと簡単に直感的にトリム編集ができるというふうになっております。カラーページは従来通りですね。皆様、おなじみのカラーのページがご利用いただけまして、このキーボードでもタッチパネルでもこのアップルペンシルでもどれでも操作をすることができるということになっております。

※Premiere Pro文字起こしの冒頭「ポケットモンスター開花予想」は周りの人の小さな声の雑談を変換したものだと思われる。