top of page
執筆者の写真北島コウ

自動文字起こしサービスの音声認識比較

皆さん、こんにちは。

私は、Microsoft365 Business Standardを使っているので、自分が主催するリモート会議のときは、Teamsを使って、「レコーディングと自動文字起こし」をONにしておくことにより、会話内容は録画され、自動的に文字起こしされるようになっています。

おまけにCopilotが会議内容の要約や、参加者それぞれが話した内容の要点も整理してくれるので、とても便利です。

(このとき、リモート会議を録画する場合は、参加者に「後々の確認のため録画させていただきます」とひとこと言って、了解をいただいておきましょう。)

便利な時代になったものですね。

若い頃は、会議内容を必死でメモして、議事録を作っていたのが、ほぼ自動でやってくれるんですから。

ただ、自分が主催するTeams会議なら良いのですが、対面の会議(F2F)や、相手方が主催するリモート会議(ZoomやGoogle Meetも含む)のときは、この技が使えません。

後で「言った、言わない」ということにならないよう、しっかり議事録を作って相手と確認しておくことはとても大事です。

でもなるべく手間と時間をかけず、いかに効率良くやるかということで、自動文字起こしサービスを比較検討し、実際にあるサービスを契約して使ってみました。

今回は、その検討の一つとして音声認識の性能を比較してみたことについて紹介したいと思います。

ボイスレコーダーの写真
いまはボイスレコーダーに代わり、スマホアプリで会議内容を録音し、文字起こしまでできるサービスが登場しています

自動文字起こしサービスとは

そもそも自動文字起こしサービスとは、パソコンやスマートフォンで会議の内容を録音して、その会話内容を自動でテキストに変換してくれるサービスです。

AI機能などを駆使して、話者を区別したり、「あー」など話し手のくせを省略して会話の中身を踏まえてテキスト化してくれたりするようです。

今回、幾つかのサービスで、どのくらい正しく会話を音声認識し、文字起こしできるか比較してみました。

各サービスには、無料お試し、そして会話の音声ファイルを読み込ませて文字起こしさせる機能がありますので、これを使って比較してみることにしました。

比較したのは、次のサービスです。

 

①   Microsoft Wordのディクテーション機能

②   ソースネクストAutoMemo

③   LINEWORKS CLOVA Note

④   Notta


①はMicrosoft Wordの基本機能として、音声を録音して文字起こしする機能が備わっているのを試してみたものです。

これが使えるなら、わざわざ自動文字起こしサービスを利用する必要はありませんので。

②~④は、いずれも企業などでも導入実績のあるサービスで、各サービスの概要は次のとおりです。

今回比較した自動文字起こしサービスの比較表

では早速、音声認識と文字起こしの比較を紹介していきたいと思います。

今回題材としたのは、次のような会話の録音データです。

<相手方> 契約書のサイン、今朝ちょっとしたんですけど届いてますかね、そちら。 <北島> はい、届いてます。で、もう締結完了させていただきまして、えーっとそちらに完了したメールが届いてると思いますので、えーっとそちらで締結完了した契約書もダウンロードできるはずですので、ダウンロードして保管していただければ、と思います。有難うございました。 <相手方> 分かりました。こちらこそ準備有難うございました。 <北島> で、あのですね、一応締結完了しまして着手金が発生する形になりますんで、これ今6月1日ですから、6月30日付で支払いということで請求書を発行させていただきますので、6月30日までにお支払いいただければ、と思いますので、宜しくお願い致します。 <相手方> はい、えっとちなみに何かあれですか、システム使われてます? <北島> いやもう、すぐに銀行振込でお願いできればと思っております。

あるお客様と、電子契約を締結し、着手金の支払いをお願いする内容の会話です。

ちなみにこのお客様には、今回の比較検討に会話の一部を使わせていただくことについて、了解を得ております。

この音声ファイルを①~④にそれぞれ読み込ませて文字起こしさせるとどうなるか、比較してみたいと思います。


① Microsoft Wordのディクテーション機能による文字起こし結果

<話者1> あの警察官社員。今朝、あのちょっと。 <話者1> 伝えました。 <話者1> ども、あのしてたんです。歩いてますかね、そちら。 <話者2> はい、届いてますであのもう。 <話者2> の締結完。 <話者2> させていただきまして。 <話者2> えっとそちらにあの完了したビール。 <話者2> 届いてると思いますので。 <話者1> ああ、そうです。 <話者2> かはいはい。 <話者2> はい。 <話者2> でそちら。 <話者2> あの契約書あの締結完了したあの契約書もダウンロードできるはずですので、それ、あのダウンロードして保管していただければと思います。ありがとうございました。 <話者1> ありましてあいえ。 <話者1> えこちらこそ準備ありがとうございます。 <話者2> は? <話者2> で。 <話者2> あの? <話者2> すね、一応あの。 <話者2> えっと? <話者2> 潔完了しましてあの着手金が発生する形になりますんで、えっとこれ。まあ、今あの6月一日ですと6月30日付でですね、あの支払いということであの請求書を発行させて、あの発行させていただきますのであの6月30日までに、あのお支払いいただければと思いますので、よろしくお願いいたします。 <話者1> はいえっとJPなんかあれですか?システム使。 <話者1> えてます。請求書の。 <話者2> いや、もう普通にあの銀行振込でえ?あのお願いできればと思っております。

 

一目で分かるとおり、Microsoft Wordのディクテーション機能は、非常にキビしい結果です。

「契約書のサイン」が「警察官社員」、「届いてますかね」が「歩いてますかね」、「完了したメール」が「完了したビール」など、全然正しく認識できていません。

また全体的に発言がブツ切りになっていて、ほとんど文章として判別できない状態です。

Wordの機能がそのまま使えたら、と期待したのですが、汎用アプリのおまけ機能ではかなり無理があるという結果になりました。

ただ、Microsoft Teamsの会議で文字起こしをした場合は、かなり精度高くできていますので、Wordでももう少し改善されることを望みたいところです。

議事録のイメージ写真

② ソースネクストAutoMemoによる音声認識結果

 

<話者1> 契約書のサイン、今朝ちょっと押さえましたけど届いてますかね。そちら。 <話者2> はい届いてます。もう締結完了させていただきまして、そちらに完了したメールが届いてると思いますので、そちらで締結完了した契約書もダウンロードできるはずですので、ダウンロードして保管していただければ、と思いますありがとうございました。 <話者1> ありました横谷剛さんは準備ができてます。 <話者2> 一応締結完了しまして着手金が発生する形になりますんで、6月30日付で支払いということで請求書を発行させていただきますので、6月30日までに支払いいただければ、と思いますので、よろしくお願いいたします。 <話者1> ちなみにシステム使えてます? <話者2> いや、もうすぐに銀行振込でお願いできればと思っております。

 

「分かりました。こちらこそ準備有難うございました。」が、なぜか「ありました横谷剛さんは準備ができてます。」となっているものの、全体的には話者ごとに区別された発言内容がまとまっており、音声認識の精度は高いと言えるのではないでしょうか。

 

③ LINEWORKS CLOVA Noteによる音声認識結果

 

<話者1> 契約書のサイン、今朝。はい、ちょっとお伝えしましたけど、してたんです。届いてますかね、そちら。 <話者 2> はい、届いてます。で、もう締結完了させていただきまして、 そちらに完了したメールが届いてると思いますので。 <話者3> そうですか。はいはい。 <話者 2> で、そちらで契約書の締結完了した契約書もダウンロードできるはずですので、 それダウンロードして保管していただければと思います。ありがとうございました。 <話者 1> 分かりました。いえいえ、こちらこそ準備ありがとうございます。はい。 <話者4> <話者2> ですね、一応締結完了しまして、着手金が発生する形になりますんで、これ今6月1日ですが、6月30日付でですね、お支払いということで請求書を発行させてい発行させていただきますので、 <話者2> 6月30日までにお支払いいただければと思いますので、よろしくお願いいたします。 <話者1> はい。ちなみになんかあれですか、システム使えてますの。 <話者 2> すぐに銀行振込でお願いできればと思っております。

 

なぜか、話者3/4という登場人物が増えてはいるものの、単語などの大きな誤りはなく、こちらも音声認識の精度は高いと言えそうです。

「これ今6月1日ですが」という部分が、AutoMemoでは省略されていましたが、CLOVA Noteでは認識されている点などは、両者のAIの判断の違いによるのかと思われます。

 

④ Nottaによる音声認識結果

 

あの契約検査員今朝あのちょっとお伝えしましたけど、あのしてたんです。届いてますかね?そちらはい。届いてますであのもう、あの締結完了させていただきましてえっと、そちらにあの完了したメールが届いていると思いますので、えっとはいはいでそちらであの? 契約書あの締結完了したあの契約書もダウンロードできるはずですので、それ、あのダウンロードして保管していただければと思います。ありがとうございました。あ、わかりました。あいえ。こちらこそ順番にとうございますであのですね。一応あのえっと締結完了しまして、あの着手金が発生する形になりますんで。 えっとこれ、まあ、今あの6月一日ですから、6月30日付でですね、あの支払いということであの請求書を発行させて、あの発行させていただきますのであの6月30日までに、あの支払いいただければと思いますので、よろしくお願い致します。はいえっと?ちなみになんかあれですか?システム使えてます。いや、もう普通にあの銀行振込でえ? あのお願いできればと思っております。

 

Microsoft Wordに比べれば発言の中身に即して認識していると言えるものの、話者の区別ができておらず、混ざった状態になってしまっています。

正直、これをもとに議事録を作成するのはなかなか難しいと思われます。

リモート会議を行っているイメージ写真

どのサービスを利用するかに関する私の判断

以上、Microsoft Wordの機能を含めて4種類で比較してみましたが、サービスによって認識の精度にかなり違いがあることに驚きました。

この結果による限り、ソースネクストのAutoMemoとLINEWORKSのCLOVA Noteは音声認識・文字起こし性能として及第点と言えると、私は判断しました。

CLOVA Noteは、現在オープンベータ(開発検証)期間中で、パソコンなら月300分(5時間)まで、スマートフォンアプリでは無制限に、無料で利用できることとなっています。

この精度の文字起こし機能を無料で使えるという点では、費用的な意味では現時点で最強かもしれないですね!

ただ、以前の記事でも紹介していますが、LINEWORKSは韓国NAVER社を親会社(出資比率70%)としており、NAVERはLINEの度重なる個人情報流出事故により、その管理のずさんさが問題視されていることから、私としては重要なお客様との会議の録音データをLINEWORKSのクラウドに預けることは、躊躇してしまいます(CLOVA Noteの音声データは、国内のデータセンターで保管されていることにはなっています)。

これは、決して韓国資本だからとかいうことではなく、同社の情報管理の信頼性に私が個人的に疑問を持っていることによります。

結論として、私としては、F2Fの重要会議など必要が生じた際に、ソースネクストのAutoMemoを月額契約で利用することにしました。

というわけで、次回は実際にAutoMemoを有料契約して、F2Fの会議などで使用してみた使い勝手などを紹介したいと思います。

それでは今回はこの辺で。

宜しくお願い致します。

 

ニュースレターの最新号をメールでお知らせします。

こちらのデジタルビズ・トップページよりぜひ配信登録をお願い致します。


Comments


bottom of page