見出し画像

文字起こしエディタ「もじこ」最前線 ~ITの荒波に乗り、文字起こしのその先へ導く~

⚫︎⚪︎⚫︎⚪︎⚫︎⚪︎⚫︎⚪︎⚫︎
「調査情報デジタル」より重要なお知らせ
「調査情報デジタル」は2024年6月よりすべての記事が無料のウィークリーマガジンになります。これまでご購読頂いた皆様にあらためて感謝申し上げます。無料化にあたりご購読者の皆様にお手続き頂くことは特にございません。今後とも「調査情報デジタル」をよろしくお願い申し上げます。
⚫︎⚪︎⚫︎⚪︎⚫︎⚪︎⚫︎⚪︎⚫︎

【TBSテレビの放送現場から産まれ、2019年度の日本映画テレビ技術大賞にも輝いた「もじこ」がこの度パワーアップした。最先端AI技術を取り込んでどこまで便利になったのか、そしてこの先さらにどんな進化を目指すのか、開発担当者が語る】

近藤 慎吾(TBSグロウディア 「もじこ」開発担当)


“文字起こし地獄”を救う「もじこ」の誕生

 番組制作の屋台骨といっても過言ではない「文字起こし」。ニュースやバラエティー、情報番組等、放送コンテンツを構成編集する前段階では、取材した動画や音声を一言一句、文字に起こしています。その作業量は膨大で、業務の中でも非常に多くの時間が費やされています。「もじこ」は、そんなテレビ・ラジオ放送局ならではの、“文字起こし地獄”と呼ばれた過酷な作業の軽減を目的に開発した「文字起こしエディタ」です。

 2016年に音声認識という技術にいち早く目を付け、現場出身の社員と技術のスペシャリストが手を取り合いながら、約3年間の試用と改善を繰り返して知見を積み重ね、2019年3月にリリースしました。その後も改善と機能追加を繰り返し、2024年4月時点ではJNN系列28社すべての局に導入、また外販でも20社以上に導入されています。

 「もじこ」は、音声・動画ファイル、リアルタイムのしゃべり言葉を、音声認識AIを使って自動でテキスト化、その結果をニーズに合わせて、便利に修正・編集できるエディタです。音声認識の精度が完璧ではなく、必ず修正が必要だという前提に基づいて開発をしているため、誤認識箇所の修正がしやすいユーザーインターフェースとなっています。また、シーンによって最適な音声認識エンジンを選択できる点も「もじこ」の特徴です。TBSが独自に開発を進めた結果、特許第6543755号を取得しています。

Webアプリ「もじこ」を利用した文字起こし作業

話題の「ChatGPT」などを活用しパワーアップ

 2024年4月、「もじこ」には大型アップデートで「校正」「要約」「翻訳」「字幕形式出力」といった多くの機能が搭載されました。今まで多くのユーザーに評価して頂いていた使いやすさを維持するため、モードという概念を取り入れ、デフォルトの「編集モード」を使えば、今まで通りご利用できるようになっています。

 「校正モード」では、明らかな誤字脱字や文法間違いを修正します。修正箇所はマーカー等で目立つように表示され、ユーザ―は校正結果を反映するか反映しないかを選択できます。

 「要約モード」では、出力形式を①べた書き ②箇条書き ③見出し+箇条書き から選択し、文字起こし結果の要約ができます。話者設定を行えば、話者情報も含めて要約が可能になります。

 「翻訳モード」では、文字起こし結果を他言語に翻訳します。音声認識エンジンでは125以上の言語を選択できるので、日本語で文字起こしした文章を英語に翻訳するようなケースだけではなく、ウクライナ語で文字起こしした文章を日本語に翻訳といったことも可能です。

 また、「Adobe Premiere Pro」などの編集ソフトに対応している字幕形式の出力も可能になりました。地上波に使われる字幕は、テロップ作成専用のソフトで作成されることが大半ですが、YouTube向けや海外番販向けのような「とりあえず何言っているか分かればよい」というお手軽レベルの字幕が欲しい方向けに追加した機能です。翻訳機能と組み合わせることで、多言語の字幕を作成することもできます。

 「校正」「要約」は最先端のAIサービスである「ChatGPT」のAPI(注)を、そして「翻訳」もAIによる高精度の翻訳が可能な「DeepL」のAPIをそれぞれ利用しているので、音声認識と同様に精度は完璧ではありませんが、文字起こし作業からシームレスに後続作業に着手できます。

(注)API…「アプリケーション・プログラミング・インターフェース」の略で、あるソフトウェアの機能を別のソフトウェアから呼び出す仕組みのこと

 また、放送局では機密情報を多く取り扱うため、「もじこ」で利用する音声認識エンジン、「ChatGPT」、「DeepL」のAPI全てにおいて、入出力したデータはAIモデルのトレーニング(学習)に利用されない点もポイントです。

新機能の「要約モード」の画面

文字起こしのその先へ…ユーザーの真の目的へ導く

 今回の「もじこ」の最新機能の開発に至って、社内では「『もじこ』はみんなが便利に使っているし、これ以上追加開発する必要性はないのではないか」という意見もありましたが、私は「もじこ」に対して更なる期待と不安を感じていました。

 期待とは、文字起こしした後の後続作業の効率化に寄与できないかという点です。文字起こしとはあくまで手段であり、ユーザーには「議事録にする」「VTRにする箇所を選定する」「字幕にする」といった明確な目的が存在します。ユーザーは、文字起こし業務を起点に、目的を達成するため様々な業務を行っているのです。「もじこ」に文字起こし+αの機能を搭載すれば、ユーザーの目的達成により近い位置まで導くことができるのではないかという期待がありました。

 一方の不安とは、生成AI元年とも呼ばれた2023年、「もじこ」の生成AI導入に取り組まなかった場合、市場製品に遅れをとってしまうのではないかという点です。実際に他製品をみてみると、生成AIを活用した追加機能をリリースした製品もみられ、「もじこ」を現状維持にしたままにしておくと、いずれ市場の波に飲み込まれてしまうのではないかと考えました。

 そこで、JNN系列28社の「もじこ」利用ユーザーに対して、文字起こし+αのニーズに関するアンケートを実施し、「是非開発してほしい」という声が多く寄せられたため、2023年6月に意を決してシステム改修に踏み切りました。

特化型の 「もじぱ」・「もじダス」・「modio」

 あらゆるシーンに汎用的に利用できる「もじこ」に対して、音声認識は活用するが、利用するシーンやユーザ―が限られるものは、「もじこ」に組み込まずに新しいサービスとして別途開発を行っています。

 「もじぱ」はリアルタイム字幕に特化したサービスです。字幕放送とは、リモコン「字幕ボタン」を押下することによって表示されるもので、通常は表示されないため「クローズドキャプション」とも呼ばれます。収録放送の場合、事前に準備することが可能ですが、生放送の場合は放送中に字幕を作成するため、収録放送に比べて難易度が跳ね上がります。

 TBSの「リアルタイム字幕」は、複数人のオペレーターが交代制でタイピングして字幕を送出する「リレー速記方式」で2002年に一部のニュース番組でスタートしました。しかし、オペレーターに高速タイピングやオペレーター同士の連携など、職人レベルの技量が求められるため、「リレー速記方式」は運用・育成コストがかかっていました。そこで生み出されたのが「もじぱ」です。

 「もじぱ」はタブレットを利用してタップ・フリック・スワイプといった人間工学に基づいた直感的な操作で文字起こし結果を編集できるため、高速タイピングが不要となりました。また、聞き逃した部分からピンポイントで再生することができ、遅れを解消するため自動倍速再生を行うことができるのも優れた点です。「もじぱ」を利用すれば、1人でも生放送字幕の送出が可能となったため、運用・育成コストの軽減だけではなく、緊急の報道特番などの対応スピードが上がるなどの副次的効果も現れています。

 その他にも「もじダス」というテロップ作成ソフトや編集ソフトと連動したオープンキャプション(動画内にすでに文字入れがされているテロップ)作成向けのサービスや、「modio」というラジオの生放送を話者別に音声認識し、チャット画面で内容を閲覧できるようなサービスも開発しています。

「リアルタイム字幕」に特化した「もじぱ」の画面

「もじこ」 その進化の先は…

 「もじこ」は、初期開発の頃からは想定できないほど多くの人に利用されるサービスとなりました。放送局だけではなく幅広い業種の方々にもご利用頂いていますが、これだけ広まった一番の理由は、「放送局という日々オンエアに追われながら質の高い映像を作り続けるプロ集団が生み出したサービスだから」だと考えています。

 「神は細部に宿る」という言葉がある通り、プロによってこだわり抜いて作られたものだからこそ、多くの人に受け入れられるものになったということです。つまり、これからも安易な妥協はせず、放送局向けに尖った開発を貫き通すことが大切だと考えています。その結果、「もじこ」は文字起こしエディタではなくなり、映像素材を管理するファイルベースシステムの一機能として組み込まれる未来も考えられます。

 ただ、「ドッグイヤー」「マウスイヤー」という言葉もある通り、IT技術は今までの比にならないほど驚異的なスピードで進歩をみせており、1年先でさえ未来を正確に想像することは非常に困難です。もしかしたら、音声だけではなく画像や動画など複数の情報を統合的に扱うマルチモーダルAIがデファクトスタンダードになり、今までの文字起こしの概念が根本から変わってしまう可能性も十分考えられます。私たち開発者にできることは、IT業界という変化の激しい荒波の中、適切なタイミングを見逃さず舵を切るということだと思います。

【執筆者略歴】
近藤 慎吾(こんどう・しんご)
1993年    神奈川県生まれ
2016年3月 上智大学総合人間科学部社会学科 卒業
  同年4月 株式会社 NTTデータ 入社
        メガバンクや地方銀行向けのシステム開発に従事
2022年4月 株式会社 TBSテレビ 入社
      「もじこ」や選挙システム等のシステム開発に従事
2023年7月 株式会社 TBSグロウディアに出向し現職

ここから先は

0字
メディアのありようが鋭く問われている現代。メディアの果たすべき役割は何か? メディアの現場では何が起きているのか?メディアの発するメッセージは誰に、どのように受け止められているか。ドラマ、バラエティなどエンタテインメントの話題もあわせ、幅広い情報をお届けします。

TBSが1958年に創刊した情報誌「調査情報」が、デジタル版の定期購読マガジンとしてリニューアル。テレビ、メディアに関する多彩な論考と情報…