NHK技研、40年分の放送局データを用いた大規模言語モデルを開発。報道精度1割向上、2026年実用化へ

2025.05.27

NHK放送技術研究所（以下：技研）は、番組制作過程における様々な業務の効率化を目的とした大規模言語モデル（LLM：Large Language Models）の開発を進めている。今回、NHKが放送したニュースなどのデータ（放送局データ）を学習させたLLMを構築し、放送局データの利用がニュース報道に関する質問への回答の正確性向上にどの程度効果的かを検証した。その結果、報道された事実に関して、誤った回答をする割合が約1割減ることを確認した。

今後は、さらなる検証を進め、大量の文書の要約などによる情報収集支援や翻訳、文章校正などの業務支援を視野に入れ、2026年までの実用化を目指して研究開発を進めていくという。

放送局業務におけるLLM利用上の課題

LLMは大量のテキストデータを学習することで、あるテキストを入力すると、それに続くテキストを予測して出力する、自然言語処理に特化した生成AIの一種だ。翻訳、要約、文章校正、プログラム作成など、幅広い業務に応用が可能だが、LLMには事実と異なる回答をしてしまうといった課題が指摘されている。特に番組制作など正確性が求められる業務では慎重な対応が必要とされる。

番組制作過程におけるLLMの想定利用方法

NHKでは番組制作者がよりクリエイティブな業務に集中できる環境の構築を目指し、これまでに番組制作支援のための日英機械翻訳システムや番組要約システムなどを研究開発してきた。現在は、番組制作の準備段階での情報収集支援や翻訳、文章校正などの業務支援を想定し、LLMの研究開発を進めているという。

今回開発したLLM

技研では既存のLLMをベースに、過去にNHKが放送した約40年分のニュース原稿やニュース記事、番組字幕などの放送局データ（約2000万文）を追加学習させたLLMを構築した。これにより、過去に放送したニュースの内容をよく理解し、事実と異なる誤った回答をしにくくなった。また、ニュースで頻繁に使用される用語や表現に対する理解力も向上したという。

外部機関が実施するニュース報道に関する検定試験を用いた評価実験では、LLMに放送局データを学習させることで、報道された事実に関して誤った回答をする割合が、学習前と比較して約1割減少した。

今回、構築したLLMがニュースの時事的な知識を獲得していることを確認したが、番組制作支援のツールとして活用するにはさらなる改良が必要だとしている。技研では誤った回答のより少ないLLMの実現を目指し、引き続き研究を進めていく方針だ。